汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Tag: RLHF
2 items with this tag.
Mar 04, 2026
LLM 原理 专栏导览
LLM
Transformer
注意力机制
预训练
RLHF
推理优化
大语言模型
Mar 04, 2026
指令微调与 RLHF——从基座模型到对话助手
LLM
SFT
RLHF
DPO
指令微调
对齐
Reward-Model
PPO
人类反馈