llmtrainingmloptimization type: concept 创建: 2026-04-27 更新: 2026-04-27

LLM Training

大语言模型训练技术栈。包括预训练、SFT、RLHF/DPO 等阶段。

训练阶段

1. Pretraining(预训练)

在大规模文本语料上预测下一个 token。

2. SFT(Supervised Fine-Tuning)

用高质量问答对进行微调。

3. RLHF / DPO

  • RLHF:Reward Model + PPO
  • DPO:Direct Preference Optimization,更简单

框架

相关