本博客基于《强化学习的数学原理(赵世珏)》
状态(State)#
状态描述 智能体(Agent) 在某一时刻所处的环境信息。
状态的集合称为 状态空间(State Space) S,S={s1,s2,…,sn}
TIP在实际例子中,下标往往是时间。
动作(Action)#
动作是智能体在某一状态下可以执行的操作。
动作的集合称为 动作空间(Action Space) A,A={a1,a2,…,am}
每一个状态 si∈S 都对应一个可执行动作的子集 A(si)⊆A
状态转移(State Transition)#
状态转移描述智能体在执行某一动作后,状态发生变化的过程。
一般用概率来描述状态转移:在状态 s 下执行动作 a 转移到状态 s′ 的概率,可以用状态转移函数 P(s′∣s,a) 来表示
策略(Policy)#
策略定义了智能体在每个状态下选择动作的规则。
策略可以用概率和表格两种方式表示:
-
概率表示:策略 π(a∣s) 表示在状态 s 下选择动作 a 的概率。
-
表格表示:策略可以用一个表格来表示,每一行对应一个状态,每一列对应一个动作,表格中的值表示在该状态下选择该动作的概率。
奖励(Reward)#
奖励是智能体在执行某一动作后,环境给予的反馈信号。
NOTE奖励的正负,数值和行为好坏没有绝对的关系,具体含义需要根据具体任务来定义。
奖励是一个实数,用符号 r 表示。 r(s,a) 表示在状态 s 下执行动作 a 后获得的奖励。
条件概率 p(r∣s,a) 表示在状态 s 下执行动作 a 得到奖励 r 的概率。
轨迹(Trajectory),(折扣)回报(Return)#
轨迹是智能体在环境中经历的一系列 状态、动作和奖励 的序列,通常表示为 τ=(s0,a0,r1,s1,a1,r2,…)。
TIP轨迹可以由策略导出,一个策略可以导出多条轨迹。
(折扣)回报指沿着一条轨迹,智能体得到的一系列即时奖励之和。在当前状态下得到的奖励被称为即时奖励(immediate reward),离开初状态之后的奖励和被称为未来奖励(future reward):
Rt=即刻奖励rt+1+未来奖励γrt+2+γ2rt+3+…=k=0∑∞γkrt+k+1其中,γ∈[0,1] 是折扣因子,用于权衡当前奖励和未来奖励的重要性,还可以避免回报发散。
Little Question#
奖励和下一个状态有关系吗?能否用 P(r∣s,a,s′) 来表示奖励和下一个状态的联合概率分布?
可以的喵
在概率论中,条件概率满足以下关系:
P(r∣s,a)=s′∑P(r,s′∣s,a)=s′∑P(r∣s,a,s′)P(s′∣s,a)这在后面推导贝尔曼方程时会用到喵