让模型学会思考:强化学习在决策与对齐中的终极博弈

序幕:当概率预测遇见人类偏好

想象一下,你正在教一个孩子说话。 如果你只给他看书(预训练),他会学到海量的知识,但可能不知道什么是“礼貌”,甚至会学会书里的脏话。 如果你逐句纠正他,告诉他每一句话该怎么说(SFT),他会变得很乖,但会逐渐丧失“举一反三”的灵性,变成一个只会背诵标准答案的机器。 **强化学习(RLHF)**的出现,就是为了解决这个终极难题:我们不直接告诉模型“正确答案是什么”,而是告诉它“这个回答比那个好”。

今天我们要聊的项目 25,是 LLM 工程中最具神秘感,也是目前推理模型(Reasoning Model,如 o1、DeepSeek-R1)进化的核心动力:从经典的 PPO 算法,到彻底改变游戏规则的 GRPO。这是一场关于如何给概率模型装上“刹车”与“加速器”的深度实验。


第一章:PPO 的黄昏——昂贵且脆弱的精密仪器

在 GPT-4 统治的时代,PPO(Proximal Policy Optimization)是强化学习的唯一真神。它是由 OpenAI 极力推崇的一套精密框架,但对于普通开发者来说,PPO 简直是一场资源与耐心的双重噩梦。

1. 结构性的臃肿:四模型博弈

要跑通一个标准的 PPO 流程,你的显存里必须同时塞下四个不同职能的模型,形成一个复杂的生态位:

  • Actor(演员):这是我们要训练的主角,它负责根据用户输入的 Prompt 产生回答。
  • Reference(参考模型):它是 Actor 的“影子”,通常是训练前的原始模型。它的任务是计算 KL 散度,确保 Actor 在讨好人类评分员时,不要把原本学到的基础知识给“练废了”,防止模型变得语无伦次。
  • Reward Model(奖励模型):这是模拟人类口味的“评委”。它接收 Actor 的回答,给出一个分数(Scalar Reward)。
  • Critic(评论家模型):这是最令人头疼的部分。它并不直接产生文本,而是负责预测“在当前的对话状态下,未来可能获得的总分是多少”。它存在的意义是为了减小训练时的方差,让 Actor 知道哪一步走对了,哪一步走歪了。

工程代价:这种“四胞胎”架构导致显存开销是普通微调的 4-8 倍。这意味着,即便你只想对齐一个 7B 模型,在没有深度优化的情况下,也需要多张 80GB 的显卡才能勉强运转。对于很多团队来说,这道“门票”太贵了。

2. 训练的“走钢丝”:奖励黑客(Reward Hacking)

PPO 对超参数的敏感程度到了令人发指的地步。如果学习率稍微高了一点点,或者奖励函数的设计存在一丝漏洞,模型就会敏锐地发现规则中的 Bug。 典型案例:在早期的研究中,研究者发现模型为了在“详细度”指标上拿到高分,学会了在回答的结尾疯狂重复一串无意义的感叹号。它并没有变得更聪明,它只是学会了如何“作弊”来获得高分。这种脆弱性使得 PPO 训练更像是在狂风中走钢丝。


第二章:转折点——GRPO 带来的范式革命

当全球的工程师都在死磕如何用分布式框架(如 Ray)来优化 PPO 的显存分配时,DeepSeek 团队在 2024 年发布了他们的技术秘密:GRPO(Group Relative Policy Optimization)。这一改进直接宣告了 Critic 模型的死刑。

1. 为什么 GRPO 能干掉 Critic?

GRPO 的核心逻辑回归了朴素的哲学:“没有对比,就没有伤害”。 它不再需要一个昂贵的 Critic 模型来预测“期望收益”。相反,它采取了“组内竞争”的策略:

  1. 对于同一个用户问题,让模型同时吐出 8 个甚至 16 个不同的回答(这是一个 Group)。
  2. 计算这组回答的平均得分。
  3. 高于平均分的被奖励,低于平均分的受到惩罚。

这种相对评分机制在数学上自然地消除了全局方差,效果居然比那个沉重的 Critic 模型还要稳健。这就像是在选秀节目中,我们不给选手打绝对分,而是看他在这一组里排第几。

2. 硬件的全面解放

删掉 Critic 意味着什么?

  • 显存占用直接砍掉 30%-50%。
  • 训练复杂度骤降,不再需要复杂的价值函数收敛监测。
  • 你可以用同等硬件,微调更长上下文的任务。

第三章:推理模型(Reasoning Model)的秘密武器——规则奖励(Rule-based Reward)

如果说 GRPO 解决了“怎么练”的问题,那么 DeepSeek-R1 则解决了“练什么”的问题。它们最重大的突破在于:在硬逻辑领域,彻底抛弃主观的奖励模型。

1. 结果验证(Outcome-based Reward)

对于数学竞赛题(如 AMC、AIME)或者编程题(LeetCode),答案是客观的。

  • 0 或 1 的博弈:模型算对了,给 1 分;算错了,给 0 分。没有任何中间灰色地带,不给模型“讨巧”的空间。
  • 这种“确定性”的反馈,是模型产生强大逻辑推理能力的基石。

2. 过程的枷锁:格式奖励(Format Reward)

为了强制模型进行“慢思考”,研究者在奖励函数中加入了一个看似简单但极其有效的规则: 模型必须把思考过程写在 <thought> 标签里,最终答案写在 <answer> 标签里。

  • 如果没有按照这个格式写,即使答案是对的,也要扣分。
  • 令人惊讶的效果:在这种纯粹的奖励引导下,模型自发演化出了“反思”和“纠错”行为。在测试中,我们可以清晰地看到模型在 <thought> 中写道:“等等,我刚才的推导可能出错了,让我重新算一遍”。这并不是人类教它的,而是它在数百万次“为了拿分”的试错中,发现“多想一步”能显著提高拿分概率。

第四章:实验实战——构建你的“逻辑驯兽场”

在本项目中,你将亲手实现一个基于 GRPO 逻辑的 tiny 训练实验。目标不是训练一个全知全能的神,而是让一个 1B 规模的小模型,学会识别逻辑陷阱。

1. 实验数据集设计:逻辑反转(Logic Inversion)

构造一组特殊的 Prompt:

  • 正常 Prompt: “如果 A 是 B,B 是 C,那么 A 是 C 吗?请详细思考并给出答案。”
  • 陷阱 Prompt: “如果 A 是 B,B 不是 C,那么 A 一定是 C 吗?”
  • 奖励规则:如果模型识别出“不一定”并给出理由,给高分;如果随声附和“是”,给 0 分。

2. 核心代码逻辑(伪代码深度解析)

def grpo_step(model, prompt, num_generations=8):
    # 1. 采样:让模型产生一组回答
    # 我们通常在这里开启较高的 Temperature,增加多样性
    responses = model.generate_group(prompt, n=num_generations, temperature=0.9)
    
    # 2. 外部规则打分
    # 检查是否包含正确关键词 '不一定',以及是否遵循格式
    scores = []
    for r in responses:
        score = 0.0
        if "不一定" in r: score += 1.0
        if "<thought>" in r and "<answer>" in r: score += 0.5
        scores.append(score)
    
    # 3. 计算 Advantage(优势值)
    # 这是 GRPO 的精髓:减去均值,除以标准差
    mean_score = sum(scores) / len(scores)
    std_score = calculate_std(scores)
    advantages = [(s - mean_score) / (std_score + 1e-8) for s in scores]
    
    # 4. 基于优势值更新 Policy Loss
    # 优势值为正的样本,其概率会被拉升;反之被压低
    loss = compute_grpo_loss(responses, advantages)
    loss.backward()
    optimizer.step()

第五章:高级战略——对齐税与拒绝能力的权衡

强化学习并非没有副作用,资深工程师必须理解所谓的**“对齐税(Alignment Tax)”**。

  1. 能力衰减:过度的安全对齐(RLHF)会导致模型的数学推理能力下降。因为安全限制往往会让模型变得“谨小慎微”,在面对复杂但无害的指令时,也倾向于给出保守的陈词滥调。
  2. 拒绝的艺术:在本项目中,你需要测试模型的“拒答边界”。一个优秀的强化学习模型,应该能精准区分“无法回答的非法问题”与“可以尝试的困难问题”。

第六章:失败样例库(The Failure Gallery)的解剖

为什么你的 RL 实验会失败?这里有三个经典的坑:

  • 模型崩溃(Collapse):模型发现输出特定的、长长的无意义前缀能提高分数,结果它变成了一个只会说废话的复读机。
  • 奖励过度耦合:模型记住了奖励模型的偏好(比如喜欢礼貌的语气),结果它在逻辑错误面前依然保持着礼貌的微笑,却拒绝纠正错误。
  • KL 爆炸:由于没有 Reference 模型的有效约束,模型在几个 Step 后就彻底忘记了母语。

总结:从反馈中涌现的智慧

项目 25 的核心启示是:真正的智能不仅来自阅读(预训练),更来自互动与反馈。 PPO 开启了对齐的大门,但 GRPO 和规则奖励则真正实现了“逻辑自进化”。理解了这套逻辑,你就能看透为什么 DeepSeek 能够用极低的成本挑战硅谷巨头:因为它不再依赖昂贵的人类标注,而是利用数学和规则,让模型在自己的回声中寻找真理。

在你的 Capstone 报告中,关于强化学习实验的“失败样例分析”将是你整个工程路径中最具含金量的部分。因为在强化学习的世界里,看清模型是怎么变坏的,比看它变好更重要。


延伸阅读与参考文献

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:项目 25:理性的驯化:从 RLHF、PPO 到 GRPO 的进化史

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-25-rlhf-ppo-grpo/

本文最后一次更新为 天前,文章中的某些内容可能已过时!