项目 08：训练目标对比：Causal、Masked 与 Prefix LM

sshipanoo 本文总共 834 字阅读全文大约需要 5 分钟本文总阅读量次

决定模型性格的基因：你如何定义损失，就如何定义模型

如果你观察 GPT、BERT 和 T5 的代码，你会发现它们大部分时间都在使用同样的 Transformer Block。它们真正的差异不在于“骨架”，而在于“眼睛”和“任务”。

项目 08 的核心是对比三种主流的训练目标（Objective Functions）。不同的目标决定了模型在训练时能看到哪些上下文，以及它最终擅长解决什么问题。

逻辑： 只能看左边，不能看右边。模型的目标是预测下一个 Token。为了防止模型“作弊”看到正确答案，我们必须使用 Causal Mask（下三角掩码）。

逻辑： 完形填空。我们随机盖住（Mask）序列中 15% 的单词，让模型根据上下文（同时看左边和右边）来猜这个词是什么。

逻辑： 部分双向，部分单向。我们将输入分为两部分：Prefix（前缀）和 Target（目标）。

在同一个实验环境下，使用相同的小语料（如：莎士比亚文集），尝试以下对比：

作为开发者，理解训练目标能帮你避开很多坑：

训练目标是模型的“任务说明书”。Causal LM 训练了模型的想象力，Masked LM 训练了模型的洞察力。通过项目 08 的对比，你将能够根据业务需求，从底层逻辑上选择最合适的模型架构。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 08：训练目标对比：Causal、Masked 与 Prefix LM

本文最后一次更新为天前，文章中的某些内容可能已过时！