704 字
4 分钟
RL_basicConception
2025-11-02

本博客基于《强化学习的数学原理(赵世珏)》

状态(State)#

状态描述 智能体(Agent) 在某一时刻所处的环境信息。

状态的集合称为 状态空间(State Space) S,  S={s1,s2,,sn}\mathcal{S},\;\mathbf{S}=\{s_1,s_2,\ldots,s_n\}

TIP

在实际例子中,下标往往是时间。

动作(Action)#

动作是智能体在某一状态下可以执行的操作。

动作的集合称为 动作空间(Action Space) A,  A={a1,a2,,am}\mathcal{A},\;\mathbf{A}=\{a_1,a_2,\ldots,a_m\}

每一个状态 siSs_i \in \mathcal{S} 都对应一个可执行动作的子集 A(si)A\mathcal{A}(s_i) \subseteq \mathcal{A}

状态转移(State Transition)#

状态转移描述智能体在执行某一动作后,状态发生变化的过程。

一般用概率来描述状态转移:在状态 ss 下执行动作 aa 转移到状态 ss' 的概率,可以用状态转移函数 P(ss,a)P(s'|s,a) 来表示

策略(Policy)#

策略定义了智能体在每个状态下选择动作的规则。

策略可以用概率和表格两种方式表示:

  1. 概率表示:策略 π(as)\pi(a|s) 表示在状态 ss 下选择动作 aa 的概率。

  2. 表格表示:策略可以用一个表格来表示,每一行对应一个状态,每一列对应一个动作,表格中的值表示在该状态下选择该动作的概率。

奖励(Reward)#

奖励是智能体在执行某一动作后,环境给予的反馈信号。

NOTE

奖励的正负,数值和行为好坏没有绝对的关系,具体含义需要根据具体任务来定义。

奖励是一个实数,用符号 rr 表示。 r(s,a)r(s,a) 表示在状态 ss 下执行动作 aa 后获得的奖励。

条件概率 p(rs,a)p(r|s,a) 表示在状态 ss 下执行动作 aa 得到奖励 rr 的概率。

轨迹(Trajectory),(折扣)回报(Return)#

轨迹是智能体在环境中经历的一系列 状态、动作和奖励 的序列,通常表示为 τ=(s0,a0,r1,s1,a1,r2,)\tau = (s_0,a_0,r_1,s_1,a_1,r_2,\ldots)

TIP

轨迹可以由策略导出,一个策略可以导出多条轨迹。

(折扣)回报指沿着一条轨迹,智能体得到的一系列即时奖励之和。在当前状态下得到的奖励被称为即时奖励(immediate reward),离开初状态之后的奖励和被称为未来奖励(future reward):

Rt=rt+1即刻奖励+γrt+2+γ2rt+3+未来奖励=k=0γkrt+k+1R_t = \underset{\text{即刻奖励}}{\underbrace{r_{t+1}}} + \underset{\text{未来奖励}}{\underbrace{\gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots }}= \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

其中,γ[0,1]\gamma \in [0,1] 是折扣因子,用于权衡当前奖励和未来奖励的重要性,还可以避免回报发散。

Little Question#

奖励和下一个状态有关系吗?能否用 P(rs,a,s)P(r|s,a,s') 来表示奖励和下一个状态的联合概率分布?

可以的喵

在概率论中,条件概率满足以下关系:

P(rs,a)=sP(r,ss,a)=sP(rs,a,s)P(ss,a)P(r|s,a) = \sum_{s'} P(r,s'|s,a) = \sum_{s'} P(r|s,a,s') P(s'|s,a)

这在后面推导贝尔曼方程时会用到喵

RL_basicConception
https://biscuit0613.github.io/posts/rm/rl_basicconception/
作者
Biscuit
发布于
2025-11-02
许可协议
CC BY-NC-SA 4.0