RL_basicConception - Biscuitの赛博小窝

Biscuit

哈基米，你要大步大步地走下去啊，不行，要悠哒悠哒才能欣赏到沿途的风景。

公告

欢迎来到我的博客喵。

了解更多

704 字

4 分钟

RL_basicConception

2025-11-02

RL

强化学习

本博客基于《强化学习的数学原理（赵世珏）》

状态（State）#

状态描述 智能体（Agent） 在某一时刻所处的环境信息。

状态的集合称为 状态空间（State Space） $\mathcal{S},\;\mathbf{S}=\{s_1,s_2,\ldots,s_n\}$

TIP
在实际例子中，下标往往是时间。

动作（Action）#

动作是智能体在某一状态下可以执行的操作。

动作的集合称为 动作空间（Action Space） $\mathcal{A},\;\mathbf{A}=\{a_1,a_2,\ldots,a_m\}$

每一个状态 $s_i \in \mathcal{S}$ 都对应一个可执行动作的子集 $\mathcal{A}(s_i) \subseteq \mathcal{A}$

状态转移（State Transition）#

状态转移描述智能体在执行某一动作后，状态发生变化的过程。

一般用概率来描述状态转移：在状态 $s$ 下执行动作 $a$ 转移到状态 $s'$ 的概率，可以用状态转移函数 $P(s'|s,a)$ 来表示

策略（Policy）#

策略定义了智能体在每个状态下选择动作的规则。

策略可以用概率和表格两种方式表示：

概率表示：策略 $\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率。
表格表示：策略可以用一个表格来表示，每一行对应一个状态，每一列对应一个动作，表格中的值表示在该状态下选择该动作的概率。

奖励（Reward）#

奖励是智能体在执行某一动作后，环境给予的反馈信号。

NOTE
奖励的正负，数值和行为好坏没有绝对的关系，具体含义需要根据具体任务来定义。

奖励是一个实数，用符号 $r$ 表示。 $r(s,a)$ 表示在状态 $s$ 下执行动作 $a$ 后获得的奖励。

条件概率 $p(r|s,a)$ 表示在状态 $s$ 下执行动作 $a$ 得到奖励 $r$ 的概率。

轨迹（Trajectory），（折扣）回报（Return）#

轨迹是智能体在环境中经历的一系列 状态、动作和奖励 的序列，通常表示为 $\tau = (s_0,a_0,r_1,s_1,a_1,r_2,\ldots)$ 。

TIP
轨迹可以由策略导出，一个策略可以导出多条轨迹。

（折扣）回报指沿着一条轨迹，智能体得到的一系列即时奖励之和。在当前状态下得到的奖励被称为即时奖励(immediate reward)，离开初状态之后的奖励和被称为未来奖励（future reward）：

R_t = \underset{\text{即刻奖励}}{\underbrace{r_{t+1}}} + \underset{\text{未来奖励}}{\underbrace{\gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots }}= \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

其中， $\gamma \in [0,1]$ 是折扣因子，用于权衡当前奖励和未来奖励的重要性，还可以避免回报发散。

Little Question#

奖励和下一个状态有关系吗？能否用 $P(r|s,a,s')$ 来表示奖励和下一个状态的联合概率分布？

可以的喵

在概率论中，条件概率满足以下关系：

P(r|s,a) = \sum_{s'} P(r,s'|s,a) = \sum_{s'} P(r|s,a,s') P(s'|s,a)

这在后面推导贝尔曼方程时会用到喵

RL_basicConception

https://biscuit0613.github.io/posts/rm/rl_basicconception/

作者

Biscuit

发布于

2025-11-02

许可协议

CC BY-NC-SA 4.0

强化学习笔记：马尔可夫决策过程（MDP）

UTF-8 编码与 Unicode，ASCII

biscuitの博客

状态（State）#

动作（Action）#

状态转移（State Transition）#

策略（Policy）#

奖励（Reward）#

轨迹（Trajectory），（折扣）回报（Return）#

Little Question#