项目 24：灵魂的对齐：SFT、指令微调与偏好优化（DPO）

导论：base model 为什么不会聊天？

当你训练完一个预训练模型（base model）时，它本质上是一个“超级搜索引擎”或“概率续写器”。如果你问它“如何制作蛋糕？”，它可能会续写一段“如何制作蛋糕、如何洗衣服、如何做饭”的目录，而不是直接回答你。

**对齐（Alignment）**的使命是让模型理解人类的“意图”。项目 24 涵盖了从有监督微调（SFT）到偏好对齐（DPO）的全栈工程细节。

第一阶段：有监督微调（SFT）——建立指令直觉

SFT 是对齐的第一步。其核心是准备高质量的 (Prompt, Response) 对。

1. 数据的三个层次

指令遵循（Instruction Following）：教模型执行特定的任务（如：总结这段话）。
对话感（Conversational Tone）：让回复更像人类对话，而不是死板的文档。
安全与拒答（Safety & Refusal）：教模型在面对违法或有害请求时礼貌地拒绝。

2. LIMA 启示录：Less is More for Alignment

Meta 的研究表明，微调不需要海量数据，只需要极致质量。仅用 1000 条顶级质量的样本，微调出的效果甚至超过了用 5 万条低质量数据训练出的模型。

工程细节：你需要亲自审核你的 SFT 数据集。剔除掉那些含有“As an AI language model”废话的样本，确保逻辑链条完整。

第二阶段：参数高效微调（LoRA/QLoRA）的数学博弈

在大模型时代，全参数微调是不现实的。LoRA（Low-Rank Adaptation）通过在原始权重 $W$ 旁边增加两个低秩矩阵 $A$ 和 $B$ 来实现高效更新。 $W' = W + \Delta W = W + (B \cdot A) \times \frac{\alpha}{r}$

1. 秩 $r$（Rank）的选择艺术

低秩（$r=4, 8$）：适合风格微调。模型不容易遗忘预训练知识，但难以学习极其复杂的新逻辑。
高秩（$r=64, 128$）：适合知识注入。如果你想让模型学会一套全新的编程语言或领域知识，高秩能提供更大的“参数余量”。

2. $\alpha$ 与学习率的协同

$\alpha$ 是缩放因子。在工程中，通常设定 $\alpha = 2r$。这保证了当你调整 $r$ 时，梯度的规模保持相对稳定，不需要重新搜索学习率。

第三阶段：从 PPO 到 DPO 的范式转移

强化学习（RLHF）是让模型更像人的关键。传统的 PPO（Proximal Policy Optimization）需要训练奖励模型（Reward Model）和评论家模型（Critic），流程极其复杂且不稳定。

1. DPO (Direct Preference Optimization) 的革命

DPO 的天才之处在于：它证明了我们可以直接在策略模型上，利用偏好对（chosen/rejected）进行训练，而不需要中间的奖励模型。

数学直觉：利用 Bradley-Terry 模型的对数比值，将强化学习目标转化为一个简单的分类 Loss。
优势：训练极度稳定，显存消耗减半，几乎没有 PPO 那种“梯度爆炸”的风险。

2. 数据的负反馈力量

DPO 的核心在于 rejected 样本。模型不仅要学什么是好的，更要深刻理解什么是不好的。

避坑点：如果 chosen 和 rejected 回复靠得太近（例如只是标点差异），DPO 很难收敛。你需要寻找那些在逻辑上存在本质差异的样本。

第四阶段：灾难性遗忘与对齐税（Alignment Tax）

微调是把双刃剑。

对齐税（Alignment Tax）：Meta 发现，随着模型越来越听话（对齐），它在原始推理任务（如数学竞赛题）上的得分反而会下降。这是因为微调改变了模型原本概率分布的平滑性。
缓解策略：
- 混合训练：在微调时，混入 5%-10% 的预训练原始语料（Replay buffer）。
- 权重合并（Model Soups）：将微调后的权重与 base 权重按比例混合。

第五阶段：实验设计与指标观测

在本项目中，你需要交付：

LoRA 超参数热力图：展示不同 $r$ 和 $\alpha$ 下，模型在指令遵循基准（如 IFEval）上的得分。
偏好对 Log-Prob 分析：记录 DPO 训练前后，模型对 chosen 答案的概率提升曲线。
对比分析：展示同一 Prompt 在 Base Model、SFT Model、DPO Model 下的三种输出，并解释其背后的行为差异。

总结

对齐是 LLM 的“二次发育”。预训练给了模型知识，而项目 24 给了模型“行为规范”。理解了对齐的底层逻辑，你就能明白为什么有些模型虽然参数量大但用起来“很轴”，而有些模型虽然小却“极具情商”。

在 Capstone 项目中，DPO 的精细化调整将是你系统从“玩具”走向“产品”的必经之路。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 24：灵魂的对齐：SFT、指令微调与偏好优化（DPO）

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-24-alignment/

本文最后一次更新为天前，文章中的某些内容可能已过时！