跳转至

Language Model Prism

强化学习基础

强化学习基础

🎈RL Note #01 | 基本概念

1.1 监督学习 vs 强化学习

1.2 序列决策模型

序列决策（Sequential Decision Making）是强化学习的核心思想之一。智能体通过与环境的连续交互，基于状态、动作及奖励的反馈，逐步优化决策策略，以最大化累计奖励

基本要素

状态 \(s\) (state)：智能体从环境中感知到的状态信息
动作 \(a\) (action)：智能体根据当前状态的输出
策略 \(\pi\) (policy)：将状态映射到动作的函数规则，是学习的目标
奖励 \(r\) (reward)：标量的反馈信号，代表动作的好坏，取决于当前的状态和所采取的动作 \(r(s_i, a_i)\)
轨迹 \(\tau\) (trajectory)：智能体和环境经历的状态、动作、奖励序列 \(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots)\)
1. 回合 (Episode)
2. 预演 (Rollout)
回报 \(r\) (Return)：从当前状态到终止状态的累计奖励
1. 折扣回报：考虑折扣因子 \(\gamma\) 的回报，遥远的奖励越少，防止发散。
2. 强化学习的最终目标是最大化累计奖励期望：
\[G_t = \sum_{k=0}^{\infty}\gamma^k r_{t+k}\]

小结

想象一个二维平面网格

先有格子：状态
每个格子可以上下左右移动：动作
每个格子如何移动：策略
移动一步之后：奖励
移动多步之后：轨迹
移动无穷步之后：回报/累计奖励期望