SFTSupervised Fine-Tuning有监督微调是在大语言模型LLM训练流程中紧接在预训练Pre-training之后的关键一步。它的核心目的非常直接让一个什么都懂的通才模型学会遵循指令变成一个能干的专才助手。 核心思想指令与答案的配对训练SFT 本质上是在一个高质量的指令-答案对数据集上对预训练模型进行进一步的训练。这些数据是人工或由高级模型精心构造的包含了各种各样的任务比如问答、摘要、翻译、代码生成等。训练数据格式典型的数据由三部分组成System Prompt系统提示可选定义模型的角色和行为风格如你是一个乐于助人的助手。Instruction指令/问题用户的输入如请解释一下什么是光合作用。Expected Output期望输出/答案理想的标准答案。训练目标模型在接收指令后需要逐词地预测期望答案的那段文本。它与预训练的目标函数通常是预测下一个词完全相同但不同之处在于它只计算答案部分的预测损失而对指令部分的预测损失通常进行掩码处理。这逼着模型把注意力集中在面对这个问题应该如何回答上而不是去死记硬背问题本身。⚙️ SFT 在训练流程中的位置与作用在整个大模型训练管线中SFT 起着承上启下的桥梁作用预训练 (Pre-training)模型在海量互联网文本语料上学习世界知识和语言规律这个阶段产出的模型是话挺多但不听话的基础模型。有监督微调 (SFT)模型学习如何从指令中理解用户意图并组织出有用、无害、格式规范的回答。这个阶段的模型已经能与人类进行基本对话了。强化学习人类反馈 (RLHF)这是对 SFT 模型的进一步优化。RLHF 通过人类的偏好排序来训练一个奖励模型再用这个奖励模型去优化 SFT 模型让它学会生成更好而非仅仅是正确的答案比如回答更有帮助、更安全或更详细。虽然现在 RLHF 很火热但 SFT 仍然是不可或缺的基础。没有经过好的 SFTRLHF 过程会极不稳定因为模型连基本的指令格式都遵循不了。 SFT 的关键要素与挑战一个成功的 SFT 过程其核心往往在于数据的质量和数量。数据质量重于数量与预训练的海量数据不同SFT 对数据质量极为敏感。几千到几万条高质量、多样化、贴近真实场景的指令数据就可能让一个小模型表现出色。数据中的偏差、错误或格式不一致会直接被模型学到。数据多样性与丰富程度为了保持模型的泛化能力SFT 数据需要覆盖各种任务类型确保它不会只在某一个任务上表现好而在其他任务上能力退化。计算成本相对较低由于 SFT 的数据量远小于预训练它对算力和时间的要求通常也低很多单机多卡甚至单卡训练几天即可完成一轮优秀的 SFT。下面这张 Mermaid 框图总结了 SFT 的核心概念、流程与价值DPODirect Preference Optimization直接偏好优化是继RLHF之后大模型对齐领域的一项突破性方法。它简化了让模型“学会什么才是好回答”的整个训练流程。 核心思想把复杂的“偏好对齐”变成简单的分类问题传统的RLHF流程像个三阶段接力赛先做SFT再训一个奖励模型最后用强化学习微调SFT模型。而DPO直接把“根据人类偏好优化策略”这个目标重构成了一个优雅的有监督分类任务在SFT模型上一步到位就完成了对齐。无需显式的奖励模型DPO的关键是推导出了最优策略与奖励函数之间的直接数学映射。这让模型可以直接从偏好数据对中学习而无需单独训练一个用于打分的奖励模型。无需复杂的强化学习因为没了需要反复采样和更新的RL特别是PPO算法环节整个训练过程变得极其稳定调参难度也大大降低。⚙️ 工作原理只有一个“对比”的目标函数DPO的训练数据是偏好对对于同一个指令有胜出的“优选回答 (win)”和落选的“劣选回答 (lose)”。它的目标函数非常直观拉大差距它只做一件事就是最大化优选回答与劣选回答在模型眼中的生成概率之差。模型被训练得更“喜欢”生成那个胜出的回答同时“远离”那个落选回答。不跑偏为了防止模型为了讨好偏好而胡说八道损失函数里还包含了一个KL散度惩罚项确保优化后的模型不会与原始的SFT模型偏差太远守住了基本能力和表述规范。 DPO vs. RLHF不止是简化DPO带来的不止是流程上的精简更是能力和稳定性的提升。对比维度RLHF (PPO)DPO流程与模型复杂需四个模型加载极简只加载一个策略模型和一个参考模型训练稳定性难收敛对超参数极度敏感极稳定标准的监督学习损失函数计算开销很高需反复采样、打分、更新较低与标准SFT微调相当理论基础基于马尔可夫决策过程的强化学习基于偏好概率的排序分类常见挑战奖励模型难以完美捕捉偏好偏好数据集的质量直接决定最终效果 应用与局限得益于简单高效DPO已成为目前最主流的大模型对齐方案之一被Mistral、Llama 3等众多开源模型广泛采用尤其适合算力有限的团队。当然DPO也有局限性。它对训练数据中的偏好标注质量非常敏感且主要用于成对偏好优化。如果追求极致的对齐效果如数学推理能力有时仍需结合强化学习探索甚至出现了像SPPO这样借鉴博弈思想的改进方法。下面的Mermaid框图梳理了DPO的核心逻辑