Language Model Prism

0x08 策略梯度算法

正在初始化搜索引擎

Home
Agent
多模态
大模型
搜推广

Language Model Prism

Home
Agent
Agent
- Learn Claude Code
多模态
多模态
- 对比学习
  对比学习
  - 0x01 对比学习概述
- 视觉 Transfomer 骨干
  视觉 Transfomer 骨干
大模型
大模型
- Transformer
  Transformer
- 强化学习
  强化学习
  - 强化学习基础
  - RL的数学原理
    RL的数学原理
    
    0x01 基本概念
    
    0x02 贝尔曼方程
    
    0x03 值迭代和策略迭代
    
    0x04 蒙特卡洛方法
    
    0x05 随机近似和梯度下降
    
    0x06 时序差分学习算法
    
    0x07 值函数近似和 DQN 算法
    
    0x08 策略梯度算法
    
    0x09 Actor Critic方法
搜推广
搜推广
- DeepEncoder

Home
大模型
强化学习
RL的数学原理

0x08 策略梯度算法

Made with Material for MkDocs