赋予模型性格:从统计概率到人类偏好的跨越
导论:base model 为什么不会聊天?
当你训练完一个预训练模型(base model)时,它本质上是一个“超级搜索引擎”或“概率续写器”。如果你问它“如何制作蛋糕?”,它可能会续写一段“如何制作蛋糕、如何洗衣服、如何做饭”的目录,而不是直接回答你。
**对齐(Alignment)**的使命是让模型理解人类的“意图”。项目 24 涵盖了从有监督微调(SFT)到偏好对齐(DPO)的全栈工程细节。
第一阶段:有监督微调(SFT)——建立指令直觉
SFT 是对齐的第一步。其核心是准备高质量的 (Prompt, Response) 对。
1. 数据的三个层次
- 指令遵循(Instruction Following):教模型执行特定的任务(如:总结这段话)。
- 对话感(Conversational Tone):让回复更像人类对话,而不是死板的文档。
- 安全与拒答(Safety & Refusal):教模型在面对违法或有害请求时礼貌地拒绝。
2. LIMA 启示录:Less is More for Alignment
Meta 的研究表明,微调不需要海量数据,只需要极致质量。仅用 1000 条顶级质量的样本,微调出的效果甚至超过了用 5 万条低质量数据训练出的模型。
- 工程细节:你需要亲自审核你的 SFT 数据集。剔除掉那些含有“As an AI language model”废话的样本,确保逻辑链条完整。
第二阶段:参数高效微调(LoRA/QLoRA)的数学博弈
在大模型时代,全参数微调是不现实的。LoRA(Low-Rank Adaptation)通过在原始权重 $W$ 旁边增加两个低秩矩阵 $A$ 和 $B$ 来实现高效更新。 $W' = W + \Delta W = W + (B \cdot A) \times \frac{\alpha}{r}$
1. 秩 $r$(Rank)的选择艺术
- 低秩($r=4, 8$):适合风格微调。模型不容易遗忘预训练知识,但难以学习极其复杂的新逻辑。
- 高秩($r=64, 128$):适合知识注入。如果你想让模型学会一套全新的编程语言或领域知识,高秩能提供更大的“参数余量”。
2. $\alpha$ 与学习率的协同
$\alpha$ 是缩放因子。在工程中,通常设定 $\alpha = 2r$。这保证了当你调整 $r$ 时,梯度的规模保持相对稳定,不需要重新搜索学习率。
第三阶段:从 PPO 到 DPO 的范式转移
强化学习(RLHF)是让模型更像人的关键。传统的 PPO(Proximal Policy Optimization)需要训练奖励模型(Reward Model)和评论家模型(Critic),流程极其复杂且不稳定。
1. DPO (Direct Preference Optimization) 的革命
DPO 的天才之处在于:它证明了我们可以直接在策略模型上,利用偏好对(chosen/rejected)进行训练,而不需要中间的奖励模型。
- 数学直觉:利用 Bradley-Terry 模型的对数比值,将强化学习目标转化为一个简单的分类 Loss。
- 优势:训练极度稳定,显存消耗减半,几乎没有 PPO 那种“梯度爆炸”的风险。
2. 数据的负反馈力量
DPO 的核心在于 rejected 样本。模型不仅要学什么是好的,更要深刻理解什么是不好的。
- 避坑点:如果
chosen和rejected回复靠得太近(例如只是标点差异),DPO 很难收敛。你需要寻找那些在逻辑上存在本质差异的样本。
第四阶段:灾难性遗忘与对齐税(Alignment Tax)
微调是把双刃剑。
- 对齐税(Alignment Tax):Meta 发现,随着模型越来越听话(对齐),它在原始推理任务(如数学竞赛题)上的得分反而会下降。这是因为微调改变了模型原本概率分布的平滑性。
- 缓解策略:
- 混合训练:在微调时,混入 5%-10% 的预训练原始语料(Replay buffer)。
- 权重合并(Model Soups):将微调后的权重与 base 权重按比例混合。
第五阶段:实验设计与指标观测
在本项目中,你需要交付:
- LoRA 超参数热力图:展示不同 $r$ 和 $\alpha$ 下,模型在指令遵循基准(如 IFEval)上的得分。
- 偏好对 Log-Prob 分析:记录 DPO 训练前后,模型对
chosen答案的概率提升曲线。 - 对比分析:展示同一 Prompt 在 Base Model、SFT Model、DPO Model 下的三种输出,并解释其背后的行为差异。
总结
对齐是 LLM 的“二次发育”。预训练给了模型知识,而项目 24 给了模型“行为规范”。理解了对齐的底层逻辑,你就能明白为什么有些模型虽然参数量大但用起来“很轴”,而有些模型虽然小却“极具情商”。
在 Capstone 项目中,DPO 的精细化调整将是你系统从“玩具”走向“产品”的必经之路。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:项目 24:灵魂的对齐:SFT、指令微调与偏好优化(DPO)
本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-24-alignment/
本文最后一次更新为 天前,文章中的某些内容可能已过时!