了解从哪来,才知道能到哪去

为什么要回顾历史

做技术不需要懂全部历史,但了解一个领域"怎么到今天这样"能帮你回答很多"为什么"的问题——为什么 LLM 用 Transformer、为什么 Prompt 这么重要、为什么模型动不动就几百 G、为什么开源和闭源的差距一直在缩小。这些问题的答案都藏在过去十年的关键节点里。本篇按时间线走一遍,尽量不陷入数学细节,聚焦"这一步解决了什么问题、给后续带来了什么"。

2017 之前:RNN 时代的瓶颈

深度学习处理文本最早期的主流是 RNN(Recurrent Neural Network)及其变体 LSTM、GRU。它们的核心思想是"按顺序逐词处理文本,每处理一个词更新一次内部状态"。问题也出在这里:

  • 无法并行——第 t 步必须等第 t-1 步完成。GPU 的并行能力基本用不上
  • 长距离依赖衰减——相隔 100 个词的两个位置之间,信息经过反复状态更新后大幅失真。文章开头的人称代词到结尾已经指代不明
  • 训练慢——长序列一次前向要等很久

这两个问题决定了 RNN 时代的模型参数规模和训练数据量都上不去,效果触顶明显。

2017:Transformer 的出现

2017 年 Google 的论文 《Attention Is All You Need》 发布,提出 Transformer 架构。关键创新只有一个——self-attention 机制:处理某个词时让它"同时看到序列里所有其他词",并根据相关性加权聚合信息,而不是像 RNN 那样按顺序传递。

这解决了 RNN 的两个硬伤:

  • 可完全并行——序列所有位置同时计算。GPU 利用率拉满
  • 距离无关——任意两个位置之间是直接连接,不经过中间状态损耗

Transformer 并不是什么深奥的数学,本质是把"注意力权重"当成一种可学习的信息路由机制。但这一改动让模型训练速度提升了数量级,为后来的规模扩张铺了路。

2018:BERT 和 GPT-1

基于 Transformer,两条技术路线几乎同时出现:

  • BERT(Google,2018)——双向编码器,擅长理解类任务(分类、抽取、匹配)。通过掩盖一些词让模型填空来训练
  • GPT-1(OpenAI,2018)——单向解码器,擅长生成类任务。通过"预测下一个词"来训练

两者在当时各领一段时间。BERT 因为在各类 NLP 榜单上刷新记录,商业应用(搜索、客服、翻译)普及更快。GPT 路线在学术上被认为"上限更高"但工程价值尚未清晰。这个判断在几年后被证明完全反了。

2020:GPT-3 和"涌现"

2020 年 OpenAI 发布 GPT-3,参数量达到 1750 亿(此前主流模型参数在 1~10 亿级别)。它让业界第一次看到一个现象叫 "涌现能力"(Emergent Abilities):一些能力(算术、推理、代码生成)在小模型上完全不存在,只有在参数量超过某个阈值后突然出现。

GPT-3 还验证了 "规模法则"(Scaling Laws)——模型损失函数随参数量、数据量、计算量的扩张呈可预测的幂律下降。这意味着"继续变大"有明确的收益曲线,工业界因此愿意投入几千万美元训练更大的模型。

但 GPT-3 本身对公众还不友好,因为它只做纯文本续写,没有对话能力。这个差距由 ChatGPT 弥合。

2022:ChatGPT 引爆全民热潮

2022 年 11 月 30 日,OpenAI 发布 ChatGPT。底层模型是 GPT-3.5 加了两道关键的"后训练"步骤:

  • SFT(Supervised Fine-Tuning)——用高质量人工标注的"问-答"数据教模型以对话形式输出
  • RLHF(Reinforcement Learning from Human Feedback)——让人类评判模型输出的好坏,用强化学习把"人类偏好"注入模型

这两步让一个只会续写文本的 GPT-3.5 变成了能"遵循指令"的对话助手。ChatGPT 发布后 5 天突破 100 万用户,2 个月破亿,成为历史上增长最快的消费级产品。Transformer + Scaling + RLHF 的组合形成了现代 LLM 的标准配方。

2023:生态爆发

ChatGPT 引爆之后的 2023 年节奏快到难以记录,几个重要节点:

  • 3 月:OpenAI 发布 GPT-4Chat Completions API(我们现在用的 messages 协议)、Function Calling
  • 3 月:Meta 发布 LLaMA 第一代(虽然最初是学术"泄露"),开源 LLM 纪元真正开始
  • 5 月HuggingFace 上的开源模型数量突破 1 万
  • 7 月LLaMA 2 开源,允许商用,开源生态彻底起飞
  • 11 月:OpenAI DevDay 发布 GPTsAssistants API,开始讲"Agent"叙事

到年底开源模型和闭源 SOTA 的差距被认为是 6~12 个月,这个差距在后续年份持续缩小。

2024:开源追平、Agent 成型

2024 年的关键进展:

  • Llama 3 / Qwen 2 / DeepSeek——开源模型在多数 benchmark 上追平 GPT-4,中文场景 Qwen 系列甚至超越
  • 推理模型:OpenAI o1 开启"推理前先想很久"的模式,DeepSeek 随后开源 R1,证明推理能力可以通过后训练注入
  • 多模态:GPT-4o、Gemini Pro 实现"文本 + 图像 + 语音 + 视频"原生统一
  • MCP:Anthropic 11 月开源 Model Context Protocol,标准化 Agent 工具接口
  • Artifacts / Canvas:Claude 和 ChatGPT 开始提供"文件编辑"能力,LLM 应用形态从"聊天框"扩展

这一年里 LangChain 热度见顶回落,开发者重新回归"手写调用"的朴素范式。

2025:多 Agent、长上下文、推理小型化

进入 2025 年(本系列写作时间是 2026 年初,2025 年已经过去):

  • 上下文窗口全面进入百万 token 级:Gemini 2.0 Pro 2M、Claude 200K→1M
  • 多 Agent 系统成为主流产品形态:Cursor、Devin、Manus 等都用多个 Agent 协作
  • 推理小模型:DeepSeek-R1-Distill-Qwen-7B 这类"推理能力蒸馏到小模型"的版本让本地部署推理模型成为可能
  • 国产模型在开源阵营正式领跑:2025 年年中 Qwen 3 和 DeepSeek-V4 两度刷新开源 SOTA

开源模型在一些场景开始反超闭源。企业部署策略从"调 API"快速转向"混合"和"私有部署"。

2026 现状

写这篇的时间点,LLM 领域大致到了这样的状态:

  • 闭源顶级模型:Claude Opus 4、GPT-4.1 处于推理和复杂任务第一档
  • 开源顶级模型:Qwen 3、DeepSeek-V4 已经在大多数 benchmark 追平或超越闭源
  • 推理范式:o 系列/R 系列"长思考"已经是事实标准,几乎所有新模型都自带推理模式
  • 上下文窗口:2M 是常态,10M 已在路上
  • 多模态:文本、图像、语音、视频统一到同一个模型是新 baseline
  • Agent 协作:多 Agent 系统 + MCP 标准化工具,复杂任务基本可以自主完成
  • 推理成本:Token 价格持续下降,相比 2023 年初已经下降 50~100 倍

几个关键启示

回头看十年,有几条值得记住的规律:

规模仍然是最重要的变量——所有聪明的算法改进,效果都比不上"模型再大一倍、数据再多一倍"。这意味着研究圈的注意力会一直在"如何更有效地放大规模"上。

后训练决定产品形态——基础模型决定天花板,后训练决定产品体验。RLHF、SFT、DPO、RLAIF 这些缩写都在解决"怎么让模型行为符合人类期待"。

开源追得上——现在和 2023 年不同,开源已经不只是学术实验品。做应用层开发可以完全基于开源生态完成,成本和合规都更优。

协议会逐渐标准化——OpenAI 协议、MCP、A2A(Agent-to-Agent),每一次协议标准化都打破一次垂直整合,让生态更大。

"怎么用"比"怎么训"更决定应用价值——大多数团队不会从 0 训练模型,核心竞争力在"怎么组织 Prompt、工具、数据"。这正是本系列一直在教的东西。

相关阅读

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:番外 1:LLM 简史,从 Transformer 到 2026

本文链接:https://www.sshipanoo.com/blog/ai/ai-for-python/番外01-LLM简史/

本文最后一次更新为 天前,文章中的某些内容可能已过时!