Language Model Prism
0x07 值函数近似和 DQN 算法
正在初始化搜索引擎
Home
Agent
多模态
大模型
搜推广
Language Model Prism
Home
Agent
Agent
Learn Claude Code
多模态
多模态
对比学习
对比学习
0x01 对比学习概述
视觉 Transfomer 骨干
视觉 Transfomer 骨干
BEiT
DeiT
Vision Transformer
大模型
大模型
Transformer
Transformer
0x00 基本结构
0x01 注意力机制
0x02 FFN 前馈神经网络
0x03 残差链接和归一化
0x04 采样和输出
0x05 计算资源和效率
0x06 KV-Cache
强化学习
强化学习
强化学习基础
RL的数学原理
RL的数学原理
0x01 基本概念
0x02 贝尔曼方程
0x03 值迭代和策略迭代
0x04 蒙特卡洛方法
0x05 随机近似和梯度下降
0x06 时序差分学习算法
0x07 值函数近似和 DQN 算法
0x08 策略梯度算法
0x09 Actor Critic方法
搜推广
搜推广
DeepEncoder
Home
大模型
强化学习
RL的数学原理
0x07 值函数近似和 DQN 算法
回到页面顶部