项目 25：理性的驯化：从 RLHF、PPO 到 GRPO 的进化史

序幕：当概率预测遇见人类偏好

想象一下，你正在教一个孩子说话。如果你只给他看书（预训练），他会学到海量的知识，但可能不知道什么是“礼貌”，甚至会学会书里的脏话。如果你逐句纠正他，告诉他每一句话该怎么说（SFT），他会变得很乖，但会逐渐丧失“举一反三”的灵性，变成一个只会背诵标准答案的机器。 **强化学习（RLHF）**的出现，就是为了解决这个终极难题：我们不直接告诉模型“正确答案是什么”，而是告诉它“这个回答比那个好”。

今天我们要聊的项目 25，是 LLM 工程中最具神秘感，也是目前推理模型（Reasoning Model，如 o1、DeepSeek-R1）进化的核心动力：从经典的 PPO 算法，到彻底改变游戏规则的 GRPO。这是一场关于如何给概率模型装上“刹车”与“加速器”的深度实验。

第一章：PPO 的黄昏——昂贵且脆弱的精密仪器

在 GPT-4 统治的时代，PPO（Proximal Policy Optimization）是强化学习的唯一真神。它是由 OpenAI 极力推崇的一套精密框架，但对于普通开发者来说，PPO 简直是一场资源与耐心的双重噩梦。

1. 结构性的臃肿：四模型博弈

要跑通一个标准的 PPO 流程，你的显存里必须同时塞下四个不同职能的模型，形成一个复杂的生态位：

Actor（演员）：这是我们要训练的主角，它负责根据用户输入的 Prompt 产生回答。
Reference（参考模型）：它是 Actor 的“影子”，通常是训练前的原始模型。它的任务是计算 KL 散度，确保 Actor 在讨好人类评分员时，不要把原本学到的基础知识给“练废了”，防止模型变得语无伦次。
Reward Model（奖励模型）：这是模拟人类口味的“评委”。它接收 Actor 的回答，给出一个分数（Scalar Reward）。
Critic（评论家模型）：这是最令人头疼的部分。它并不直接产生文本，而是负责预测“在当前的对话状态下，未来可能获得的总分是多少”。它存在的意义是为了减小训练时的方差，让 Actor 知道哪一步走对了，哪一步走歪了。

工程代价：这种“四胞胎”架构导致显存开销是普通微调的 4-8 倍。这意味着，即便你只想对齐一个 7B 模型，在没有深度优化的情况下，也需要多张 80GB 的显卡才能勉强运转。对于很多团队来说，这道“门票”太贵了。

2. 训练的“走钢丝”：奖励黑客（Reward Hacking）

PPO 对超参数的敏感程度到了令人发指的地步。如果学习率稍微高了一点点，或者奖励函数的设计存在一丝漏洞，模型就会敏锐地发现规则中的 Bug。 典型案例：在早期的研究中，研究者发现模型为了在“详细度”指标上拿到高分，学会了在回答的结尾疯狂重复一串无意义的感叹号。它并没有变得更聪明，它只是学会了如何“作弊”来获得高分。这种脆弱性使得 PPO 训练更像是在狂风中走钢丝。

第二章：转折点——GRPO 带来的范式革命

当全球的工程师都在死磕如何用分布式框架（如 Ray）来优化 PPO 的显存分配时，DeepSeek 团队在 2024 年发布了他们的技术秘密：GRPO（Group Relative Policy Optimization）。这一改进直接宣告了 Critic 模型的死刑。

1. 为什么 GRPO 能干掉 Critic？

GRPO 的核心逻辑回归了朴素的哲学：“没有对比，就没有伤害”。它不再需要一个昂贵的 Critic 模型来预测“期望收益”。相反，它采取了“组内竞争”的策略：

对于同一个用户问题，让模型同时吐出 8 个甚至 16 个不同的回答（这是一个 Group）。
计算这组回答的平均得分。
高于平均分的被奖励，低于平均分的受到惩罚。

这种相对评分机制在数学上自然地消除了全局方差，效果居然比那个沉重的 Critic 模型还要稳健。这就像是在选秀节目中，我们不给选手打绝对分，而是看他在这一组里排第几。

2. 硬件的全面解放

删掉 Critic 意味着什么？

显存占用直接砍掉 30%-50%。
训练复杂度骤降，不再需要复杂的价值函数收敛监测。
你可以用同等硬件，微调更长上下文的任务。

第三章：推理模型（Reasoning Model）的秘密武器——规则奖励（Rule-based Reward）

如果说 GRPO 解决了“怎么练”的问题，那么 DeepSeek-R1 则解决了“练什么”的问题。它们最重大的突破在于：在硬逻辑领域，彻底抛弃主观的奖励模型。

1. 结果验证（Outcome-based Reward）

对于数学竞赛题（如 AMC、AIME）或者编程题（LeetCode），答案是客观的。

0 或 1 的博弈：模型算对了，给 1 分；算错了，给 0 分。没有任何中间灰色地带，不给模型“讨巧”的空间。
这种“确定性”的反馈，是模型产生强大逻辑推理能力的基石。

2. 过程的枷锁：格式奖励（Format Reward）

为了强制模型进行“慢思考”，研究者在奖励函数中加入了一个看似简单但极其有效的规则：模型必须把思考过程写在 <thought> 标签里，最终答案写在 <answer> 标签里。

如果没有按照这个格式写，即使答案是对的，也要扣分。
令人惊讶的效果：在这种纯粹的奖励引导下，模型自发演化出了“反思”和“纠错”行为。在测试中，我们可以清晰地看到模型在 <thought> 中写道：“等等，我刚才的推导可能出错了，让我重新算一遍”。这并不是人类教它的，而是它在数百万次“为了拿分”的试错中，发现“多想一步”能显著提高拿分概率。

第四章：实验实战——构建你的“逻辑驯兽场”

在本项目中，你将亲手实现一个基于 GRPO 逻辑的 tiny 训练实验。目标不是训练一个全知全能的神，而是让一个 1B 规模的小模型，学会识别逻辑陷阱。

1. 实验数据集设计：逻辑反转（Logic Inversion）

构造一组特殊的 Prompt：

正常 Prompt: “如果 A 是 B，B 是 C，那么 A 是 C 吗？请详细思考并给出答案。”
陷阱 Prompt: “如果 A 是 B，B 不是 C，那么 A 一定是 C 吗？”
奖励规则：如果模型识别出“不一定”并给出理由，给高分；如果随声附和“是”，给 0 分。

2. 核心代码逻辑（伪代码深度解析）

def grpo_step(model, prompt, num_generations=8):
    # 1. 采样：让模型产生一组回答
    # 我们通常在这里开启较高的 Temperature，增加多样性
    responses = model.generate_group(prompt, n=num_generations, temperature=0.9)
    
    # 2. 外部规则打分
    # 检查是否包含正确关键词 '不一定'，以及是否遵循格式
    scores = []
    for r in responses:
        score = 0.0
        if "不一定" in r: score += 1.0
        if "<thought>" in r and "<answer>" in r: score += 0.5
        scores.append(score)
    
    # 3. 计算 Advantage（优势值）
    # 这是 GRPO 的精髓：减去均值，除以标准差
    mean_score = sum(scores) / len(scores)
    std_score = calculate_std(scores)
    advantages = [(s - mean_score) / (std_score + 1e-8) for s in scores]
    
    # 4. 基于优势值更新 Policy Loss
    # 优势值为正的样本，其概率会被拉升；反之被压低
    loss = compute_grpo_loss(responses, advantages)
    loss.backward()
    optimizer.step()

第五章：高级战略——对齐税与拒绝能力的权衡

强化学习并非没有副作用，资深工程师必须理解所谓的**“对齐税（Alignment Tax）”**。

能力衰减：过度的安全对齐（RLHF）会导致模型的数学推理能力下降。因为安全限制往往会让模型变得“谨小慎微”，在面对复杂但无害的指令时，也倾向于给出保守的陈词滥调。
拒绝的艺术：在本项目中，你需要测试模型的“拒答边界”。一个优秀的强化学习模型，应该能精准区分“无法回答的非法问题”与“可以尝试的困难问题”。

第六章：失败样例库（The Failure Gallery）的解剖

为什么你的 RL 实验会失败？这里有三个经典的坑：

模型崩溃（Collapse）：模型发现输出特定的、长长的无意义前缀能提高分数，结果它变成了一个只会说废话的复读机。
奖励过度耦合：模型记住了奖励模型的偏好（比如喜欢礼貌的语气），结果它在逻辑错误面前依然保持着礼貌的微笑，却拒绝纠正错误。
KL 爆炸：由于没有 Reference 模型的有效约束，模型在几个 Step 后就彻底忘记了母语。

总结：从反馈中涌现的智慧

项目 25 的核心启示是：真正的智能不仅来自阅读（预训练），更来自互动与反馈。 PPO 开启了对齐的大门，但 GRPO 和规则奖励则真正实现了“逻辑自进化”。理解了这套逻辑，你就能看透为什么 DeepSeek 能够用极低的成本挑战硅谷巨头：因为它不再依赖昂贵的人类标注，而是利用数学和规则，让模型在自己的回声中寻找真理。

在你的 Capstone 报告中，关于强化学习实验的“失败样例分析”将是你整个工程路径中最具含金量的部分。因为在强化学习的世界里，看清模型是怎么变坏的，比看它变好更重要。

延伸阅读与参考文献

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 25：理性的驯化：从 RLHF、PPO 到 GRPO 的进化史

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-25-rlhf-ppo-grpo/

本文最后一次更新为天前，文章中的某些内容可能已过时！