汀的知识碎片
Search
Search
Dark mode
Light mode
文章导航
Tag: Reward-Model
1 item with this tag.
Mar 04, 2026
指令微调与 RLHF——从基座模型到对话助手
LLM
SFT
RLHF
DPO
指令微调
对齐
Reward-Model
PPO
人类反馈