番外 1：LLM 简史——从 Transformer 到今天

想理解今天的 LLM，最快的路径不是去读最新的模型卡，而是把过去十年的主线捋一遍。因为每周都有"重大突破"，而真正改变一切的关键节点屈指可数。把这几个节点串起来，你就不会再被营销词迷惑。

史前时代

在 2017 年之前，处理文字的主流方案是 RNN 和它的变体 LSTM。它们一个字一个字往前读，把前一步的"记忆"传递给下一步。这种串行方式训练慢，而且读到第一百个字的时候，第一个字的信息已经稀释得差不多了。2014 年前后，机器翻译研究者引入 Attention 机制让解码时能"回头看"整个输入，效果明显改善，但骨架仍然是 RNN，速度没有根本解决。

这段历史的关键遗产是"注意力"这个概念：让模型在需要的时候把焦点放在序列的任意位置。它后来变成了整个架构的主角。

2017：Transformer 把 RNN 扔掉

Google 的八个研究者写了一篇后来被引用超过十万次的论文，叫 Attention Is All You Need。他们做了一件激进的事：把 RNN 的骨架完全拿掉，只保留 Attention，再配上前馈网络和残差连接。这个新架构叫 Transformer。

三件事让它成为地基。第一，同一序列里所有位置可以一起算，彻底并行化，训练速度变成了工程问题而不是算法问题。第二，任意两个 token 之间直接算相似度，距离不再是瓶颈。第三，也是后来最重要的一条——这个架构可以一直放大，效果会一直涨。之后十年所有主流的语言模型，不管叫 GPT 还是 BERT 还是 Claude，骨子里都是 Transformer。

2018-2020：两条路线与放大定律

Transformer 原本既有 Encoder 又有 Decoder。人们很快发现这两部分可以拆开独立使用，形成了两条技术路线。Google 的 BERT 用 Encoder，擅长理解类任务，一时间横扫各种 NLP 榜单。OpenAI 的 GPT 用 Decoder，每次只预测下一个 token，擅长生成。一开始 BERT 风头更劲，但后来的故事证明，"只做下一个词预测"在模型足够大之后反而什么都能干——理解、生成、翻译、问答都包在一个接口里。BERT 并没有消失，它的变种至今仍在搜索和 embedding 领域发挥作用，但创造新范式的机会给了 Decoder 派。

2020 年，OpenAI 做了一件决定产业方向的事。他们发表 Kaplan 等人的那篇关于 Scaling Law 的论文，指出一个看似无聊但极其重要的规律：模型参数、训练数据、算力这三样，按幂律关系增加，loss 就稳定下降。换句话说只要你肯堆资源，效果就能接着涨。这条规律让后面的故事从研究变成了工程竞赛。

同年 GPT-3 发布，1750 亿参数。第一次让研究者真正震惊的不是它的尺寸，而是 Few-shot 能力——不用微调，只要在 prompt 里塞几个例子，它就能做新任务。这意味着 AI 的使用方式从"训一个模型解决一个问题"变成了"提一个要求就能解决问题"，范式彻底变了。但普通人没什么感觉，因为当时还没有聊天界面，只有 API 和 playground。

2022：ChatGPT 时刻

GPT-3 以及后来的 Codex 和 GPT-3.5，能力都已经不差，但它们本质还是"续写引擎"——你给它半句话它补完。OpenAI 意识到要让普通人用起来，必须让模型学会"对话",而不是只学会"续写"。他们做了一件后来被反复模仿的事：用 RLHF（基于人类反馈的强化学习）把模型训练成"一个会好好回答问题的助手"。

2022 年 11 月 30 日 ChatGPT 上线。五天破一百万用户，两个月破一亿——人类历史上增长最快的消费级产品。值得注意的是，从纯技术指标看 ChatGPT 背后的 InstructGPT 并不比 GPT-3 强多少，真正带来质变的是"学会当助手"这件事。这也是后来被反复验证的一条经验：一个模型有多大、benchmark 跑多少分，不等于它有用；对齐（alignment）和形态才决定它能不能进入产业。

2023：GPT-4、开源裂变与 Claude

2023 年 3 月 GPT-4 发布，多模态、长上下文、推理能力都大幅提升，之后两年它是行业事实上的标杆。同年 OpenAI 几位核心成员（包括 Dario 和 Daniela Amodei）离开创立 Anthropic 并推出 Claude，以"安全对齐"和"长文本理解"见长。至此闭源阵营形成了 OpenAI 和 Anthropic 双雄的格局，后来 Google 带着 Gemini 回场，三家至今相互追赶。

但 2023 年最有历史意义的事件不来自闭源。那年 2 月 Meta 发布 LLaMA，原本只授权给研究者，模型权重却在 BitTorrent 上被放了出来。一周之内社区把它搬到 MacBook 上跑（llama.cpp），用 600 美元微调出了 Alpaca，用同样的办法训出 Vicuna——一个号称达到 ChatGPT 90% 能力的开源对话模型。这是寒武纪大爆发式的一周，之后几乎所有我们熟悉的开源工具链都可以追溯到这个时刻。Meta 后来大方了起来，正式开源 Llama 2、Llama 3、Llama 3.1 405B，每一代都在缩小与闭源前沿的距离。Zuckerberg 为此写过一篇长文解释，大意是 Meta 不靠卖 API 赚钱，基础设施商品化对它战略有利。

与此同时中国开源也在起步。阿里的通义千问 Qwen 系列很快成为中文能力最强的开源选项，DeepSeek 从一开始就走硬核训练路线，Yi、ChatGLM、MiniMax 各有地盘。

2024：工具、Agent 与推理

如果说 2022 是对话年，2023 是开源年，那 2024 就是 Agent 年。Function Calling 在 2023 年末被 OpenAI 引入，2024 所有主流模型都原生支持，LLM 从"只会说话"变成"能调 API 做事"，这一形态变化催生了 Cursor、Perplexity、v0、Devin 等产品。前端圈第一次有了专属于 AI 时代的新工具，Claude Code 也是这一波的产物。

上下文窗口在这一年进入了疯狂竞赛。年初还在 32K/100K 的档位，年末已经是 200K 到 1M 的量级，Gemini 1.5 甚至在内测 10M。技术上这不是简单"开大窗口"那么容易，背后是 RoPE 位置编码、Flash Attention、Ring Attention、KV Cache 优化、MoE 等一系列突破的合力。窗口变大改变了应用形态——整本小说、完整代码库、长视频都能一次塞进去，但同时也暴露了"放得下不等于用得好"的新问题（后面有专门一篇讲这个）。

2024 年最后一个转折是 OpenAI 的 o1。此前大家在一条曲线上竞赛：训练得更大效果更好。o1 开出了第二条曲线——推理时花更多算力也能变强，模型回答前先"想"一段长长的思考链，数学和编程任务因此飞跃。这件事的产业含义比技术含义更大：它证明了训练之外还有别的地方可以"堆"，打破了"算力全用在训练"的惯例。

2025：DeepSeek 冲击、MCP、Agent 走向生产

2025 年有三件事对这个产业的格局有长期影响。

第一件事是 DeepSeek。中国团队用远低于 OpenAI 的预算（公开数据是几百万美金级别，相对 GPT-4 传闻的上亿），训出了对标 GPT-4o 的 V3，并把权重、训练细节、论文全部开源。紧接着 R1 在 2025 年 1 月发布，对标 o1 的推理模型、开源、便宜。Nvidia 单日跌超 17%，美股震荡，行业第一次被迫思考"卷算力"是不是唯一路径。技术上 DeepSeek 的几个贡献——MoE 架构、FP8 训练、GRPO 强化学习——都被后续工作广泛吸收。

第二件事是 MCP（Model Context Protocol）。Anthropic 在 2024 年末提出这个开放协议，目标是让工具和模型彻底解耦，就像 USB-C 对设备生态做的事。2025 年 Claude Desktop、Cursor、ChatGPT Apps、OpenAI API 全线支持，一个 MCP Server 能被所有主流 AI 应用使用。这是 Agent 时代的基础设施，前端开发者写一个 Server 就能让整个生态受益。

第三件事是 Agent 的生产化。Cursor、Claude Code、Windsurf、Devin、Manus……从 2024 年的演示走进 2025 年的日常。AI 辅助编程的主形态从"代码补全"切换到"指派任务"，Copilot 并没有消失但已经不是中心。

2026：我们所在的位置

到今天，几件事已经成了常态。旗舰模型在长任务上接近资深工程师水平；30B 级开源模型在 MacBook 上顺畅运行，大量场景不再依赖云 API；文本、图像、音频、视频统一在一个模型里越来越常见；主流 API 价格相比两年前便宜了十倍以上；Agent 生态从工具、协议到任务市场初具规模。

没解决的问题也很清楚。幻觉仍是绕不开的工程难题（后面有专篇）。可解释性和对齐依然是开放问题。高质量人类文本已经被大厂基本扫光，"训练数据枯竭"的说法开始出现。电力、芯片、数据中心的物理约束成为新瓶颈。对就业和社会的影响尚未开始真正被吸收。

如果要把十年浓缩成一句话：一个 2017 年的架构在 2020 年被证明可以一直放大，在 2022 年学会听话对话，在 2023 年扩散到开源社区，在 2024 年学会用工具并开始思考，在 2025 年走进生产线，在 2026 年变成你每天打开的那个窗口。

很多事情会变，但这条线索给了你一个参照系——每次看到新模型发布，都能往这条线上放一放：它是在继续放大（Scaling），还是在新的曲线上（推理、多模态、Agent 工具链），还是单纯的营销包装。

值得读的几篇

原始论文方面最该读 Transformer 的 Attention Is All You Need、GPT-3 的 Language Models are Few-Shot Learners、InstructGPT 的 Training language models to follow instructions、LLaMA 初代论文，以及 DeepSeek-V3 的技术报告——这五篇基本涵盖了主线上每个拐点。

科普向推荐 Jay Alammar 的 The Illustrated Transformer，这是我见过最好的入门图解。以及 Andrej Karpathy 的 YouTube 频道，他讲 LLM 是如何工作的系列，深入浅出到可以直接抄下来当教材。想跟踪最新进展可以订阅 Simon Willison 的博客和 Latent Space 播客。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:番外 1：LLM 简史——从 Transformer 到今天

本文链接:https://www.sshipanoo.com/blog/ai/ai-for-frontend/番外01-LLM简史/

本文最后一次更新为天前，文章中的某些内容可能已过时！