跳转至

强化学习基础

🎈RL Note #01 | 基本概念

1.1 监督学习 vs 强化学习

1.2 序列决策模型

序列决策(Sequential Decision Making)是强化学习的核心思想之一。智能体通过与环境的连续交互,基于状态、动作及奖励的反馈,逐步优化决策策略,以最大化累计奖励

基本要素

  1. 状态 \(s\) (state):智能体从环境中感知到的状态信息
  2. 动作 \(a\) (action):智能体根据当前状态的输出
  3. 策略 \(\pi\) (policy):将状态映射到动作的函数规则,是学习的目标
  4. 奖励 \(r\) (reward):标量的反馈信号,代表动作的好坏,取决于当前的状态和所采取的动作 \(r(s_i, a_i)\)
  5. 轨迹 \(\tau\) (trajectory):智能体和环境经历的状态、动作、奖励序列 \(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots)\)

    1. 回合 (Episode)
    2. 预演 (Rollout)
  6. 回报 \(r\) (Return):从当前状态到终止状态的累计奖励

    1. 折扣回报:考虑折扣因子 \(\gamma\) 的回报,遥远的奖励越少,防止发散。
    2. 强化学习的最终目标是最大化累计奖励期望:
    \[G_t = \sum_{k=0}^{\infty}\gamma^k r_{t+k}\]
小结

想象一个二维平面网格

  1. 先有格子:状态
  2. 每个格子可以上下左右移动:动作
  3. 每个格子如何移动:策略
  4. 移动一步之后:奖励
  5. 移动多步之后:轨迹
  6. 移动无穷步之后:回报/累计奖励期望