强化学习笔记：马尔可夫决策过程（MDP）

Biscuit

哈基米，你要大步大步地走下去啊，不行，要悠哒悠哒才能欣赏到沿途的风景。

公告

欢迎来到我的博客喵。

324 字

2 分钟

强化学习笔记：马尔可夫决策过程（MDP）

2025-11-02

/

MDP(这一部分直接参考书本内容)#

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习中的一个重要概念，用于描述智能体与环境的交互过程。MDP由以下几个基本要素组成：

状态空间（State Space） $\mathcal{S}$ ：表示环境中所有可能状态的集合。
动作空间（Action Space） $\mathcal{A}$ ：表示智能体在各个状态下可以执行的所有可能动作的集合。
奖励集合 $\mathcal{R}$ ：表示智能体在 $(s,a)$ 可能获得的奖励值的集合。
状态转移概率（State Transition Probability） $p(s'|s,a)$ ：表示在状态 $s$ 下执行动作 $a$ 后，转移到下一个状态 $s'$ 的概率。满足 $\sum_{s'\in\mathcal{S}} p(s'|s,a) = 1$ 。
奖励概率 $p(r|s,a)$ ：表示在状态 $s$ 下执行动作 $a$ 后，获得奖励 $r$ 的概率。满足 $\sum_{r\in\mathcal{R(s,a)}} p(r|s,a) = 1$ 。
策略（Policy）： $\pi(a|s)$ ：表示在状态 $s$ 下，选择动作 $a$ 的概率。满足 $\sum_{a\in\mathcal{A(s)}} \pi(a|s) = 1$ 。