强化学习基础
🎈RL Note #01 | 基本概念
1.1 监督学习 vs 强化学习
1.2 序列决策模型
序列决策(Sequential Decision Making)是强化学习的核心思想之一。智能体通过与环境的连续交互,基于状态、动作及奖励的反馈,逐步优化决策策略,以最大化累计奖励
基本要素
- 状态 \(s\) (state):智能体从环境中感知到的状态信息
- 动作 \(a\) (action):智能体根据当前状态的输出
- 策略 \(\pi\) (policy):将状态映射到动作的函数规则,是学习的目标
- 奖励 \(r\) (reward):标量的反馈信号,代表动作的好坏,取决于当前的状态和所采取的动作 \(r(s_i, a_i)\)
-
轨迹 \(\tau\) (trajectory):智能体和环境经历的状态、动作、奖励序列 \(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots)\)
- 回合 (Episode)
- 预演 (Rollout)
-
回报 \(r\) (Return):从当前状态到终止状态的累计奖励
- 折扣回报:考虑折扣因子 \(\gamma\) 的回报,遥远的奖励越少,防止发散。
- 强化学习的最终目标是最大化累计奖励期望:
\[G_t = \sum_{k=0}^{\infty}\gamma^k r_{t+k}\]
小结
想象一个二维平面网格
- 先有格子:状态
- 每个格子可以上下左右移动:动作
- 每个格子如何移动:策略
- 移动一步之后:奖励
- 移动多步之后:轨迹
- 移动无穷步之后:回报/累计奖励期望