汀的知识碎片

Tag: PPO

1 item with this tag.

  • Mar 04, 2026

    指令微调与 RLHF——从基座模型到对话助手

    • LLM
    • SFT
    • RLHF
    • DPO
    • 指令微调
    • 对齐
    • Reward-Model
    • PPO
    • 人类反馈

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community