番外 1：LLM 简史，从 Transformer 到 2026

为什么要回顾历史

做技术不需要懂全部历史，但了解一个领域"怎么到今天这样"能帮你回答很多"为什么"的问题——为什么 LLM 用 Transformer、为什么 Prompt 这么重要、为什么模型动不动就几百 G、为什么开源和闭源的差距一直在缩小。这些问题的答案都藏在过去十年的关键节点里。本篇按时间线走一遍，尽量不陷入数学细节，聚焦"这一步解决了什么问题、给后续带来了什么"。

2017 之前：RNN 时代的瓶颈

深度学习处理文本最早期的主流是 RNN（Recurrent Neural Network）及其变体 LSTM、GRU。它们的核心思想是"按顺序逐词处理文本，每处理一个词更新一次内部状态"。问题也出在这里：

无法并行——第 t 步必须等第 t-1 步完成。GPU 的并行能力基本用不上
长距离依赖衰减——相隔 100 个词的两个位置之间，信息经过反复状态更新后大幅失真。文章开头的人称代词到结尾已经指代不明
训练慢——长序列一次前向要等很久

这两个问题决定了 RNN 时代的模型参数规模和训练数据量都上不去，效果触顶明显。

2017：Transformer 的出现

2017 年 Google 的论文 《Attention Is All You Need》 发布，提出 Transformer 架构。关键创新只有一个——self-attention 机制：处理某个词时让它"同时看到序列里所有其他词"，并根据相关性加权聚合信息，而不是像 RNN 那样按顺序传递。

这解决了 RNN 的两个关键限制：

可完全并行——序列所有位置同时计算，GPU 利用率高
距离无关——任意两个位置之间是直接连接，不经过中间状态损耗

Transformer 在数学上并不复杂，本质是把"注意力权重"当成一种可学习的信息路由机制。但这一改动让模型训练速度提升了数量级，为后来的规模扩张铺了路。

2018：BERT 和 GPT-1

基于 Transformer，两条技术路线几乎同时出现：

BERT（Google，2018）——双向编码器，擅长理解类任务（分类、抽取、匹配）。通过掩盖一些词让模型填空来训练
GPT-1（OpenAI，2018）——单向解码器，擅长生成类任务。通过"预测下一个词"来训练

两者在当时各领一段时间。BERT 因为在各类 NLP 榜单上刷新记录，商业应用（搜索、客服、翻译）普及更快。GPT 路线在学术上被认为"上限更高"但工程价值尚未清晰。这个判断在几年后被证明完全反了。

2020：GPT-3 和"涌现"

2020 年 OpenAI 发布 GPT-3，参数量达到 1750 亿（此前主流模型参数在 1~10 亿级别）。它让业界第一次看到一个现象叫 "涌现能力"（Emergent Abilities）：一些能力（算术、推理、代码生成）在小模型上完全不存在，只有在参数量超过某个阈值后突然出现。

GPT-3 还验证了 "规模法则"（Scaling Laws）——模型损失函数随参数量、数据量、计算量的扩张呈可预测的幂律下降。这意味着"继续变大"有明确的收益曲线，工业界因此愿意投入几千万美元训练更大的模型。

但 GPT-3 本身对公众还不友好，因为它只做纯文本续写，没有对话能力。这个差距由 ChatGPT 弥合。

2022：ChatGPT 引爆全民热潮

2022 年 11 月 30 日，OpenAI 发布 ChatGPT。底层模型是 GPT-3.5 加了两道关键的"后训练"步骤：

SFT（Supervised Fine-Tuning）——用高质量人工标注的"问-答"数据教模型以对话形式输出
RLHF（Reinforcement Learning from Human Feedback）——让人类评判模型输出的好坏，用强化学习把"人类偏好"注入模型

这两步让一个只会续写文本的 GPT-3.5 变成了能"遵循指令"的对话助手。ChatGPT 发布后 5 天突破 100 万用户，2 个月破亿，成为历史上增长最快的消费级产品。Transformer + Scaling + RLHF 的组合形成了现代 LLM 的标准配方。

2023：生态爆发

ChatGPT 引爆之后的 2023 年节奏快到难以记录，几个重要节点：

3 月：OpenAI 发布 GPT-4、Chat Completions API（我们现在用的 messages 协议）、Function Calling
3 月：Meta 发布 LLaMA 第一代（虽然最初是学术"泄露"），开源 LLM 纪元真正开始
5 月：HuggingFace 上的开源模型数量突破 1 万
7 月：LLaMA 2 开源，允许商用，开源生态进入加速期
11 月：OpenAI DevDay 发布 GPTs、Assistants API，开始讲"Agent"叙事

到年底开源模型和闭源 SOTA 的差距被认为是 6~12 个月，这个差距在后续年份持续缩小。

2024：开源追平、Agent 成型

2024 年的关键进展：

Llama 3 / Qwen 2 / DeepSeek——开源模型在多数 benchmark 上追平 GPT-4，中文场景 Qwen 系列甚至超越
推理模型：OpenAI o1 开启"推理前先想很久"的模式，DeepSeek 随后开源 R1，证明推理能力可以通过后训练注入
多模态：GPT-4o、Gemini Pro 实现"文本 + 图像 + 语音 + 视频"原生统一
MCP：Anthropic 11 月开源 Model Context Protocol，标准化 Agent 工具接口
Artifacts / Canvas：Claude 和 ChatGPT 开始提供"文件编辑"能力，LLM 应用形态从"聊天框"扩展

这一年里 LangChain 热度见顶回落，开发者重新回归"手写调用"的朴素范式。

2025：多 Agent、长上下文、推理小型化

进入 2025 年（本系列写作时间是 2026 年初，2025 年已经过去）：

上下文窗口全面进入百万 token 级：Gemini 2.0 Pro 2M、Claude 200K→1M
多 Agent 系统成为主流产品形态：Cursor、Devin、Manus 等都用多个 Agent 协作
推理小模型：DeepSeek-R1-Distill-Qwen-7B 这类"推理能力蒸馏到小模型"的版本让本地部署推理模型成为可能
国产模型在开源阵营正式领跑：2025 年年中 Qwen 3 和 DeepSeek-V4 两度刷新开源 SOTA

开源模型在一些场景开始反超闭源。企业部署策略从"调 API"快速转向"混合"和"私有部署"。

2026 现状

写这篇的时间点，LLM 领域大致到了这样的状态：

闭源顶级模型：Claude Opus 4、GPT-4.1 处于推理和复杂任务第一档
开源顶级模型：Qwen 3、DeepSeek-V4 已经在大多数 benchmark 追平或超越闭源
推理范式：o 系列/R 系列"长思考"已经是事实标准，几乎所有新模型都自带推理模式
上下文窗口：2M 是常态，10M 已在路上
多模态：文本、图像、语音、视频统一到同一个模型是新 baseline
Agent 协作：多 Agent 系统 + MCP 标准化工具，复杂任务基本可以自主完成
推理成本：Token 价格持续下降，相比 2023 年初已经下降 50~100 倍

几个关键启示

回头看十年，有几条值得记住的规律：

规模仍然是最重要的变量——所有聪明的算法改进，效果都比不上"模型再大一倍、数据再多一倍"。这意味着研究圈的注意力会一直在"如何更有效地放大规模"上。

后训练决定产品形态——基础模型决定天花板，后训练决定产品体验。RLHF、SFT、DPO、RLAIF 这些缩写都在解决"怎么让模型行为符合人类期待"。

开源追得上——现在和 2023 年不同，开源已经不只是学术实验品。做应用层开发可以完全基于开源生态完成，成本和合规都更优。

协议会逐渐标准化——OpenAI 协议、MCP、A2A（Agent-to-Agent），每一次协议标准化都打破一次垂直整合，让生态更大。

"怎么用"比"怎么训"更决定应用价值——大多数团队不会从 0 训练模型，核心竞争力在"怎么组织 Prompt、工具、数据"。这正是本系列一直在教的东西。