2017 到 2026,世界怎么变成这样
想理解今天的 LLM,最快的路径不是去读最新的模型卡,而是把过去十年的主线捋一遍。因为每周都有"重大突破",而真正改变一切的关键节点屈指可数。把这几个节点串起来,你就不会再被营销词迷惑。
史前时代
在 2017 年之前,处理文字的主流方案是 RNN 和它的变体 LSTM。它们一个字一个字往前读,把前一步的"记忆"传递给下一步。这种串行方式训练慢,而且读到第一百个字的时候,第一个字的信息已经稀释得差不多了。2014 年前后,机器翻译研究者引入 Attention 机制让解码时能"回头看"整个输入,效果明显改善,但骨架仍然是 RNN,速度没有根本解决。
这段历史的关键遗产是"注意力"这个概念:让模型在需要的时候把焦点放在序列的任意位置。它后来变成了整个架构的主角。
2017:Transformer 把 RNN 扔掉
Google 的八个研究者写了一篇后来被引用超过十万次的论文,叫 Attention Is All You Need。他们做了一件激进的事:把 RNN 的骨架完全拿掉,只保留 Attention,再配上前馈网络和残差连接。这个新架构叫 Transformer。
三件事让它成为地基。第一,同一序列里所有位置可以一起算,彻底并行化,训练速度变成了工程问题而不是算法问题。第二,任意两个 token 之间直接算相似度,距离不再是瓶颈。第三,也是后来最重要的一条——这个架构可以一直放大,效果会一直涨。之后十年所有主流的语言模型,不管叫 GPT 还是 BERT 还是 Claude,骨子里都是 Transformer。
2018-2020:两条路线与放大定律
Transformer 原本既有 Encoder 又有 Decoder。人们很快发现这两部分可以拆开独立使用,形成了两条技术路线。Google 的 BERT 用 Encoder,擅长理解类任务,一时间横扫各种 NLP 榜单。OpenAI 的 GPT 用 Decoder,每次只预测下一个 token,擅长生成。一开始 BERT 风头更劲,但后来的故事证明,"只做下一个词预测"在模型足够大之后反而什么都能干——理解、生成、翻译、问答都包在一个接口里。BERT 并没有消失,它的变种至今仍在搜索和 embedding 领域发挥作用,但创造新范式的机会给了 Decoder 派。
2020 年,OpenAI 做了一件决定产业方向的事。他们发表 Kaplan 等人的那篇关于 Scaling Law 的论文,指出一个看似无聊但极其重要的规律:模型参数、训练数据、算力这三样,按幂律关系增加,loss 就稳定下降。换句话说只要你肯堆资源,效果就能接着涨。这条规律让后面的故事从研究变成了工程竞赛。
同年 GPT-3 发布,1750 亿参数。第一次让研究者真正震惊的不是它的尺寸,而是 Few-shot 能力——不用微调,只要在 prompt 里塞几个例子,它就能做新任务。这意味着 AI 的使用方式从"训一个模型解决一个问题"变成了"提一个要求就能解决问题",范式彻底变了。但普通人没什么感觉,因为当时还没有聊天界面,只有 API 和 playground。
2022:ChatGPT 时刻
GPT-3 以及后来的 Codex 和 GPT-3.5,能力都已经不差,但它们本质还是"续写引擎"——你给它半句话它补完。OpenAI 意识到要让普通人用起来,必须让模型学会"对话",而不是只学会"续写"。他们做了一件后来被反复模仿的事:用 RLHF(基于人类反馈的强化学习)把模型训练成"一个会好好回答问题的助手"。
2022 年 11 月 30 日 ChatGPT 上线。五天破一百万用户,两个月破一亿——人类历史上增长最快的消费级产品。值得注意的是,从纯技术指标看 ChatGPT 背后的 InstructGPT 并不比 GPT-3 强多少,真正带来质变的是"学会当助手"这件事。这也是后来被反复验证的一条经验:一个模型有多大、benchmark 跑多少分,不等于它有用;对齐(alignment)和形态才决定它能不能进入产业。
2023:GPT-4、开源裂变与 Claude
2023 年 3 月 GPT-4 发布,多模态、长上下文、推理能力都大幅提升,之后两年它是行业事实上的标杆。同年 OpenAI 几位核心成员(包括 Dario 和 Daniela Amodei)离开创立 Anthropic 并推出 Claude,以"安全对齐"和"长文本理解"见长。至此闭源阵营形成了 OpenAI 和 Anthropic 双雄的格局,后来 Google 带着 Gemini 回场,三家至今相互追赶。
但 2023 年最有历史意义的事件不来自闭源。那年 2 月 Meta 发布 LLaMA,原本只授权给研究者,模型权重却在 BitTorrent 上被放了出来。一周之内社区把它搬到 MacBook 上跑(llama.cpp),用 600 美元微调出了 Alpaca,用同样的办法训出 Vicuna——一个号称达到 ChatGPT 90% 能力的开源对话模型。这是寒武纪大爆发式的一周,之后几乎所有我们熟悉的开源工具链都可以追溯到这个时刻。Meta 后来大方了起来,正式开源 Llama 2、Llama 3、Llama 3.1 405B,每一代都在缩小与闭源前沿的距离。Zuckerberg 为此写过一篇长文解释,大意是 Meta 不靠卖 API 赚钱,基础设施商品化对它战略有利。
与此同时中国开源也在起步。阿里的通义千问 Qwen 系列很快成为中文能力最强的开源选项,DeepSeek 从一开始就走硬核训练路线,Yi、ChatGLM、MiniMax 各有地盘。
2024:工具、Agent 与推理
如果说 2022 是对话年,2023 是开源年,那 2024 就是 Agent 年。Function Calling 在 2023 年末被 OpenAI 引入,2024 所有主流模型都原生支持,LLM 从"只会说话"变成"能调 API 做事",这一形态变化催生了 Cursor、Perplexity、v0、Devin 等产品。前端圈第一次有了专属于 AI 时代的新工具,Claude Code 也是这一波的产物。
上下文窗口在这一年进入了疯狂竞赛。年初还在 32K/100K 的档位,年末已经是 200K 到 1M 的量级,Gemini 1.5 甚至在内测 10M。技术上这不是简单"开大窗口"那么容易,背后是 RoPE 位置编码、Flash Attention、Ring Attention、KV Cache 优化、MoE 等一系列突破的合力。窗口变大改变了应用形态——整本小说、完整代码库、长视频都能一次塞进去,但同时也暴露了"放得下不等于用得好"的新问题(后面有专门一篇讲这个)。
2024 年最后一个转折是 OpenAI 的 o1。此前大家在一条曲线上竞赛:训练得更大效果更好。o1 开出了第二条曲线——推理时花更多算力也能变强,模型回答前先"想"一段长长的思考链,数学和编程任务因此飞跃。这件事的产业含义比技术含义更大:它证明了训练之外还有别的地方可以"堆",打破了"算力全用在训练"的惯例。
2025:DeepSeek 冲击、MCP、Agent 走向生产
2025 年有三件事对这个产业的格局有长期影响。
第一件事是 DeepSeek。中国团队用远低于 OpenAI 的预算(公开数据是几百万美金级别,相对 GPT-4 传闻的上亿),训出了对标 GPT-4o 的 V3,并把权重、训练细节、论文全部开源。紧接着 R1 在 2025 年 1 月发布,对标 o1 的推理模型、开源、便宜。Nvidia 单日跌超 17%,美股震荡,行业第一次被迫思考"卷算力"是不是唯一路径。技术上 DeepSeek 的几个贡献——MoE 架构、FP8 训练、GRPO 强化学习——都被后续工作广泛吸收。
第二件事是 MCP(Model Context Protocol)。Anthropic 在 2024 年末提出这个开放协议,目标是让工具和模型彻底解耦,就像 USB-C 对设备生态做的事。2025 年 Claude Desktop、Cursor、ChatGPT Apps、OpenAI API 全线支持,一个 MCP Server 能被所有主流 AI 应用使用。这是 Agent 时代的基础设施,前端开发者写一个 Server 就能让整个生态受益。
第三件事是 Agent 的生产化。Cursor、Claude Code、Windsurf、Devin、Manus……从 2024 年的演示走进 2025 年的日常。AI 辅助编程的主形态从"代码补全"切换到"指派任务",Copilot 并没有消失但已经不是中心。
2026:我们所在的位置
到今天,几件事已经成了常态。旗舰模型在长任务上接近资深工程师水平;30B 级开源模型在 MacBook 上顺畅运行,大量场景不再依赖云 API;文本、图像、音频、视频统一在一个模型里越来越常见;主流 API 价格相比两年前便宜了十倍以上;Agent 生态从工具、协议到任务市场初具规模。
没解决的问题也很清楚。幻觉仍是绕不开的工程难题(后面有专篇)。可解释性和对齐依然是开放问题。高质量人类文本已经被大厂基本扫光,"训练数据枯竭"的说法开始出现。电力、芯片、数据中心的物理约束成为新瓶颈。对就业和社会的影响尚未开始真正被吸收。
如果要把十年浓缩成一句话:一个 2017 年的架构在 2020 年被证明可以一直放大,在 2022 年学会听话对话,在 2023 年扩散到开源社区,在 2024 年学会用工具并开始思考,在 2025 年走进生产线,在 2026 年变成你每天打开的那个窗口。
很多事情会变,但这条线索给了你一个参照系——每次看到新模型发布,都能往这条线上放一放:它是在继续放大(Scaling),还是在新的曲线上(推理、多模态、Agent 工具链),还是单纯的营销包装。
值得读的几篇
原始论文方面最该读 Transformer 的 Attention Is All You Need、GPT-3 的 Language Models are Few-Shot Learners、InstructGPT 的 Training language models to follow instructions、LLaMA 初代论文,以及 DeepSeek-V3 的技术报告——这五篇基本涵盖了主线上每个拐点。
- Attention Is All You Need
- Language Models are Few-Shot Learners
- Training language models to follow instructions
- LLaMA: Open and Efficient Foundation Language Models
- DeepSeek-V3 Technical Report
科普向推荐 Jay Alammar 的 The Illustrated Transformer,这是我见过最好的入门图解。以及 Andrej Karpathy 的 YouTube 频道,他讲 LLM 是如何工作的系列,深入浅出到可以直接抄下来当教材。想跟踪最新进展可以订阅 Simon Willison 的 博客 和 Latent Space 播客。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:番外 1:LLM 简史——从 Transformer 到今天
本文链接:https://www.sshipanoo.com/blog/ai/ai-for-frontend/番外01-LLM简史/
本文最后一次更新为 天前,文章中的某些内容可能已过时!