Language Model Prism
0x08 策略梯度算法
正在初始化搜索引擎
    • Home
    • Agent
    • 多模态
    • 大模型
    • 搜推广
    • Home
      • Learn Claude Code
        • 0x01 对比学习概述
        • BEiT
        • DeiT
        • Vision Transformer
        • 0x00 基本结构
        • 0x01 注意力机制
        • 0x02 FFN 前馈神经网络
        • 0x03 残差链接和归一化
        • 0x04 采样和输出
        • 0x05 计算资源和效率
        • 0x06 KV-Cache
        • 强化学习基础
          • 0x01 基本概念
          • 0x02 贝尔曼方程
          • 0x03 值迭代和策略迭代
          • 0x04 蒙特卡洛方法
          • 0x05 随机近似和梯度下降
          • 0x06 时序差分学习算法
          • 0x07 值函数近似和 DQN 算法
          • 0x08 策略梯度算法
          • 0x09 Actor Critic方法
      • DeepEncoder
    1. Home
    2. 大模型
    3. 强化学习
    4. RL的数学原理

    0x08 策略梯度算法

    Made with Material for MkDocs