324 字
2 分钟
强化学习笔记:马尔可夫决策过程(MDP)

MDP(这一部分直接参考书本内容)#

马尔可夫决策过程(Markov Decision Process, MDP)是强化学习中的一个重要概念,用于描述智能体与环境的交互过程。MDP由以下几个基本要素组成:

  1. 状态空间(State Space) S\mathcal{S}:表示环境中所有可能状态的集合。

  2. 动作空间(Action Space) A\mathcal{A}:表示智能体在各个状态下可以执行的所有可能动作的集合。

  3. 奖励集合 R\mathcal{R}:表示智能体在(s,a)(s,a)可能获得的奖励值的集合。

  4. 状态转移概率(State Transition Probability) p(ss,a)p(s'|s,a):表示在状态 ss 下执行动作 aa 后,转移到下一个状态 ss' 的概率。满足 sSp(ss,a)=1\sum_{s'\in\mathcal{S}} p(s'|s,a) = 1

  5. 奖励概率 p(rs,a)p(r|s,a):表示在状态 ss 下执行动作 aa 后,获得奖励 rr 的概率。满足 rR(s,a)p(rs,a)=1\sum_{r\in\mathcal{R(s,a)}} p(r|s,a) = 1

  6. 策略(Policy)π(as)\pi(a|s):表示在状态 ss 下,选择动作 aa 的概率。满足 aA(s)π(as)=1\sum_{a\in\mathcal{A(s)}} \pi(a|s) = 1

马尔可夫性(Markov Property)#

马尔可夫性:下一个状态仅依赖于当前状态和动作,而与过去的状态和动作无关。

在MDP中,马尔可夫性意味着状态转移概率和奖励概率只依赖于当前状态和动作:

p(st+1st,at)=p(st+1st,at,st1,at1,)p(rt+1st,at)=p(rt+1st,at,st1,at1,)p(s_{t+1}|s_t,a_t) = p(s_{t+1} | s_t, a_t,s_{t-1},a_{t-1},\ldots)\\ p(r_{t+1}|s_t,a_t) = p(r_{t+1} | s_t, a_t,s_{t-1},a_{t-1},\ldots)
强化学习笔记:马尔可夫决策过程(MDP)
https://biscuit0613.github.io/posts/rm/rl_markov/
作者
Biscuit
发布于
2025-11-02
许可协议
CC BY-NC-SA 4.0