决定模型性格的基因:你如何定义损失,就如何定义模型
架构相似,灵魂不同
如果你观察 GPT、BERT 和 T5 的代码,你会发现它们大部分时间都在使用同样的 Transformer Block。它们真正的差异不在于“骨架”,而在于“眼睛”和“任务”。
项目 08 的核心是对比三种主流的训练目标(Objective Functions)。不同的目标决定了模型在训练时能看到哪些上下文,以及它最终擅长解决什么问题。
1. Causal Language Modeling (CLM) —— GPT 的路径
逻辑: 只能看左边,不能看右边。 模型的目标是预测下一个 Token。为了防止模型“作弊”看到正确答案,我们必须使用 Causal Mask(下三角掩码)。
- 优势:非常适合开放式生成。因为它训练时的任务(预测下一个词)和推理时的任务完全一致。
- 劣势:对中间信息的理解能力稍弱,因为它无法通过后文来修正对前文的理解。
2. Masked Language Modeling (MLM) —— BERT 的路径
逻辑: 完形填空。 我们随机盖住(Mask)序列中 15% 的单词,让模型根据上下文(同时看左边和右边)来猜这个词是什么。
- 优势:双向注意力。模型对语义的理解极其深刻,非常适合分类、情感分析、命名实体识别等任务。
- 劣势:不擅长生成。当你让一个 BERT 模型生成长文本时,它往往会陷入自我重复或语无伦次,因为它训练时从未学习过如何从零开始构建长序列。
3. Prefix LM / Seq2Seq —— T5 与 GLM 的路径
逻辑: 部分双向,部分单向。 我们将输入分为两部分:Prefix(前缀)和 Target(目标)。
-
在 Prefix 部分,所有 Token 可以互相看见(双向)。
-
在 Target 部分,Token 只能看见左边(单向)。
-
优势:兼具理解和生成能力。这是目前很多对话模型(如早期的 GLM)喜欢采用的折中方案。它能理解复杂的输入指令,同时保持流畅的输出。
实验对比任务
在同一个实验环境下,使用相同的小语料(如:莎士比亚文集),尝试以下对比:
- 生成实验:让 CLM 和 MLM 同时续写句子。观察 MLM 是否在生成几个词后就开始输出随机 Token。
- 填空实验:给出一句有空缺的话,观察谁能更精准地补全。
- Loss 曲线对比:观察三者的收敛速度。由于 MLM 和 Prefix LM 看到了更多的上下文信息,它们的训练 Loss 通常下降得比 CLM 快。
为什么要理解这些差异?
作为开发者,理解训练目标能帮你避开很多坑:
- 如果你需要做一个翻译系统,你应该优先考虑 Seq2Seq 或 Prefix LM 架构。
- 如果你需要做一个创意写作工具,纯粹的 Causal LM(GPT 架构)是唯一的选择。
- 如果你需要做一个搜索召回系统,基于 MLM 的 Embedding 模型通常效果更好。
总结
训练目标是模型的“任务说明书”。Causal LM 训练了模型的想象力,Masked LM 训练了模型的洞察力。通过项目 08 的对比,你将能够根据业务需求,从底层逻辑上选择最合适的模型架构。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:项目 08:训练目标对比:Causal、Masked 与 Prefix LM
本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-08-objectives/
本文最后一次更新为 天前,文章中的某些内容可能已过时!