够大的规模,会让一些从前不存在的东西自己出现
那个山中的湖,据说一千年前是干的。
老农的祖父开始记录雨水,祖父交给父亲,父亲交给他。他叫周一——这是他爹的名字,也是他的名字,祖辈三代都用这个名字——因为他们干的是同一件事:每年雨季,记录一年下了多少雨;每年冬天,量一下湖面比去年高了多少。这事干了一百多年了。
一开始大家觉得这个家族很怪。雨水和湖面的关系,谁不知道?雨多湖就高,雨少湖就低,这是常识,还需要每年量?
但周一手里有一本祖父留下的小册子。册子上密密麻麻地写着每一年的两个数字——雨量和湖面增量。他祖父在册子的最后一页画了一条曲线——把所有年份的雨量和湖面增量画到一张图上。
那条曲线不是直线。
它是一条奇怪的、有弧度的线——刚开始的时候比较平,雨量从 100 单位增加到 200 单位,湖面只升一点点;但后来雨量从 5000 增加到 10000,湖面升的速度也变快了。曲线不是匀速的,雨多到一定程度,湖面会以一种'被加速'的方式上涨。
周一的祖父在册子上写了一句话:这条曲线,我不解释。我只记下来。后人哪一天会用得到。
周一这一辈子继续填这条曲线。当他七十岁的时候,他画到了一千年来从来没有被填过的那一片范围——雨量超过 50000 单位的那一片。他祖父和父亲都没看到过这么大的雨。但周一记下来——那一年是百年一遇的大雨——他把那个点画到图上。
奇怪的事情发生了。那个点完美地落在曲线上。就像曲线一直在等他。
更奇怪的是另一件事。当湖面达到一定的高度,新的事情开始出现。
湖原本只有水草。湖面到 5 尺高的时候,第一次出现了鱼——不是有人放进去的,是某种远方的鱼随着雨水进入了湖,然后在湖里活下来。湖面到 10 尺,蛙类出现。湖面到 20 尺,水鸟开始迁徙到这里。湖面到 30 尺,湖底长出了从来没有过的水生植物。
每一次湖面跨过某一个高度,就有一种全新的、之前完全不存在的生命形态进入这个湖。这些生命不是慢慢增加,是在某个高度突然出现。从前湖里没有蛙,湖面到 9 尺还是没有蛙,到了 10 尺,某一个雨季之后,湖里就有了蛙——而且不只是一两只,是一整个生态。
周一和他祖父一样,不解释这些——他只记下来。
他的孙子读他的册子,问他:"爷爷,你这一辈子看着湖,你到底学到了什么?"
周一想了很久,说:
两件事。一件是,雨和湖之间有一条精确的曲线——不是直线,也不是奇形怪状。它是一条就在那里的曲线——你下足够的雨,湖就会到那个高度。这条曲线不为人改变。
第二件事更怪。这条曲线本身是平滑的——但沿着这条曲线走的过程中,会有一些东西突然出现——蛙、鱼、水鸟、新的水草——那些东西在低水位时不在,过了某个水位它们就在了。它们不是被慢慢培育出来的,是被湖面撞到那个高度,自己出现的。
湖不创造蛙。湖只是给了蛙一个能存在的容器。等湖大到那个程度,蛙就来了。
孙子问:"那爷爷,你这一辈子量湖,有什么用?"
周一笑了:
用处大了。有了这条曲线,你就能预测——再下多少雨,这片湖会变多大,会出现什么新的生命。祖父没有解释这条曲线,但这条曲线本身已经是一种最大的知识——它告诉你,自然不是混沌的,自然有它的法则,法则的样子,你只要量得够久,就能画出来。
寓言之外
这就是 Scaling Laws(规模律,扩展定律)——2020 年由 OpenAI 的 Jared Kaplan 等人在论文 Scaling Laws for Neural Language Models 中正式提出的一组发现,改变了整个 AI 行业过去六年的发展节奏。
把神经网络的训练想象成那片湖。雨水对应你向模型投入的计算量(compute)、数据量(data)、参数量(parameters) 这三种资源。湖面高度对应模型的表现(loss 或具体任务的准确率)。
Kaplan 等人做了一系列大规模实验,在不同规模的模型(从几百万到几十亿参数)、不同的训练数据量、不同的训练计算量下,量出了 loss 和这三种资源之间的关系。
他们发现的事情震动了整个行业:
训练 loss 和 计算量、数据量、参数量,之间存在精确的幂律关系(power law)。
写成公式:
L(N) ≈ a × N^(-α)
其中 N 是参数量(或 data, 或 compute),L 是 loss,α 是一个介于 0.05 到 0.10 之间的常数。
这意味着——给我一个语言模型在 1 亿参数下的 loss,我能精确预测它在 100 亿参数下的 loss。这不是个估计,这是一条定律。如果你在小规模上 fit 这条曲线,大规模的表现几乎就在曲线的延长线上。
这件事的工程意义巨大:
模型公司可以"预测一个未训练的模型有多强"——决定是否投入巨额资金训练一个更大的模型时,不需要靠赌,只要在小规模做实验,把曲线拟合出来,延长到大规模即可。这就是 OpenAI、Anthropic、Google 在 2020-2024 年敢一次次投入越来越巨额计算的根本原因——他们知道结果会怎样。
算力 + 数据 + 参数的最优配比可被求解——2022 年 DeepMind 的 Chinchilla 论文(Hoffmann et al.)进一步发现:在固定 compute 预算下,模型大小和训练 token 数应该近乎 1:1 增长。GPT-3(2020)训练 token 不够,被发现是"under-trained";Chinchilla 70B 用同等 compute 但更多 token,性能超过 175B 的 GPT-3。这一发现重新定义了大模型的训练标准。
资源有限时的最优策略可计算——给我 1000 个 GPU 训练一周,我应该训练多大的模型?多少 token?Scaling Laws 给出了精确答案。
但寓言里更让人着迷的,是第二件事——湖里突然出现的蛙。
这就是 Emergent Abilities(涌现能力)——这是 2022 年 Wei 等人发现的另一个深刻现象:很多能力,在小模型上完全不存在(随机水平),但当模型规模跨过某个阈值之后,突然出现并迅速达到高水平。
例子:
- 多位数加法——GPT-3(125M)做不了,(1.3B)做不了,(13B)做不了,(175B)突然能做了
- 指令遵循——小模型完全不理解 "请把这段话翻译成法语",大模型自然就懂
- Chain-of-Thought 推理——小模型不会"分步思考",大模型会(下一篇会讲)
- 使用工具(function calling)——超过一定规模才稳定可用
- 多步规划——更小的模型一步两步还行,复杂规划是大模型才有的能力
这些能力的曲线不是连续上升——是贴在地板上,然后突然垂直跃起。研究者把这种现象叫做 "phase transition(相变)"——和水到 100 度突然变蒸汽是同一种数学结构。
为什么会有相变?这是个开放问题。一些可能的解释:
- 多步任务的难度:做一件复杂事情需要 N 个子能力都达标,任何一个不够都会失败。如果每个子能力随规模渐进改善,整体成功率却是相乘的——只有所有子能力都过线,整体才能过线。这种"乘法关系"会造成视觉上的相变。
- 测度问题:有研究认为 emergent ability 是评测指标的产物——用更细的指标(对数似然、token 级准确率),曲线其实是平滑的,只是 0/1 评分把它放大成了"突现"(Schaeffer et al. 2023)。
- 真的相变:有研究反驳上述,指出在某些任务上,即使用平滑指标,也能看到清晰的能力相变。这件事仍在争论。
但对工程实践而言,有没有连续的解释并不重要——观察到的事实是:模型越大,能力的种类就越多;而新能力的出现时机,在某种意义上是可预测的(基于已有的 Scaling Laws + 历史数据)。
更深一层——Scaling Laws 揭示了一种关于"智能"的全新世界观:
也许智能不是一种被精心设计出来的东西,而是一种'被规模召唤出来的现象'。
人脑不是 100 倍蠕虫的脑就行——人脑可能恰好处于"足够大"的那个相变之上。语言能力、抽象思维、自我意识——这些可能不是被基因细致编码的"功能",而是当神经元数量、连接复杂度跨过某个阈值时,自然涌现的现象。
如果这是真的,那 Scaling Laws 不只是 AI 的事——它可能是这个宇宙关于"复杂系统如何产生新性质"的一条普遍规律的一个特例。
周一的祖父没有解释那条曲线。他只记录。也许这是面对宇宙之美的最好态度——不解释,只记录,直到这条曲线变成一种知识本身。
在 AI 史的位置
Scaling Laws 的奠基论文是 2020 年 1 月 OpenAI 发表的 Scaling Laws for Neural Language Models(Kaplan, McCandlish 等),正式给出了语言模型的幂律行为。
2020 年 5 月 GPT-3 发表(Brown et al.),175B 参数,用实际行动证明了 Scaling Laws 不是理论游戏——直接把规模推到这条曲线的远端,看到了 in-context learning 等惊人的涌现能力。这是大模型时代的真正开端。
2022 年 3 月 DeepMind 的 Chinchilla 论文修正了 Scaling Laws——最优数据量比 Kaplan 估计的更大,模型应该 train more, not bigger。这直接影响了之后所有大模型的训练策略:LLaMA、PaLM 2、GPT-4 都按 Chinchilla 律来配 data 和 params。
2022 年 6 月 论文 Emergent Abilities of Large Language Models(Wei et al.)系统整理了"涌现能力"的现象,提出 137 种任务上观察到的相变行为。这是大模型"超越渐进改善"的第一次集中证据。
2023 年起,Scaling Laws 在多模态(vision-language)、强化学习、agents 等更多场景上被验证。Anthropic 的 RSP(Responsible Scaling Policy)、OpenAI 的 capability evaluation framework——本质都是在用 Scaling Laws 预测下一代模型可能出现的危险能力,提前部署应对方案。
到了 2026 年——尽管学界对 "Scaling Laws 还能持续多久"、"是否到了'数据墙'"、"训练计算还能再扩 10 倍吗" 有激烈争论,但 Scaling Laws 作为一个工程信仰,已经深深扎根在每一家前沿大模型公司的战略里。他们都在赌——只要够大的雨,湖就还能再大;只要再大,新的蛙就会自己出现。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:18. 够大的雨终会灌满湖
本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/18-够大的雨终会灌满湖/
本文最后一次更新为 天前,文章中的某些内容可能已过时!