汀的知识碎片

Tag: RLHF

2 items with this tag.

  • Mar 04, 2026

    LLM 原理 专栏导览

    • LLM
    • Transformer
    • 注意力机制
    • 预训练
    • RLHF
    • 推理优化
    • 大语言模型
  • Mar 04, 2026

    指令微调与 RLHF——从基座模型到对话助手

    • LLM
    • SFT
    • RLHF
    • DPO
    • 指令微调
    • 对齐
    • Reward-Model
    • PPO
    • 人类反馈

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community