18. 够大的雨终会灌满湖

那个山中的湖,据说一千年前是干的。

老农的祖父开始记录雨水,祖父交给父亲,父亲交给他。他叫周一——这是他爹的名字,也是他的名字,祖辈三代都用这个名字——因为他们干的是同一件事:每年雨季,记录一年下了多少雨;每年冬天,量一下湖面比去年高了多少。这事干了一百多年了。

一开始大家觉得这个家族很怪。雨水和湖面的关系,谁不知道?雨多湖就高,雨少湖就低,这是常识,还需要每年量?

但周一手里有一本祖父留下的小册子。册子上密密麻麻地写着每一年的两个数字——雨量和湖面增量。他祖父在册子的最后一页画了一条曲线——把所有年份的雨量和湖面增量画到一张图上。

那条曲线不是直线。

它是一条奇怪的、有弧度的线——刚开始的时候比较平,雨量从 100 单位增加到 200 单位,湖面只升一点点;但后来雨量从 5000 增加到 10000,湖面升的速度也变快了。曲线不是匀速的,雨多到一定程度,湖面会以一种'被加速'的方式上涨。

周一的祖父在册子上写了一句话:这条曲线,我不解释。我只记下来。后人哪一天会用得到。

周一这一辈子继续填这条曲线。当他七十岁的时候,他画到了一千年来从来没有被填过的那一片范围——雨量超过 50000 单位的那一片。他祖父和父亲都没看到过这么大的雨。但周一记下来——那一年是百年一遇的大雨——他把那个点画到图上。

奇怪的事情发生了。那个点完美地落在曲线上。就像曲线一直在等他。

更奇怪的是另一件事。当湖面达到一定的高度,新的事情开始出现。

湖原本只有水草。湖面到 5 尺高的时候,第一次出现了鱼——不是有人放进去的,是某种远方的鱼随着雨水进入了湖,然后在湖里活下来。湖面到 10 尺,蛙类出现。湖面到 20 尺,水鸟开始迁徙到这里。湖面到 30 尺,湖底长出了从来没有过的水生植物。

每一次湖面跨过某一个高度,就有一种全新的、之前完全不存在的生命形态进入这个湖。这些生命不是慢慢增加,是在某个高度突然出现。从前湖里没有蛙,湖面到 9 尺还是没有蛙,到了 10 尺,某一个雨季之后,湖里就有了蛙——而且不只是一两只,是一整个生态。

周一和他祖父一样,不解释这些——他只记下来。

他的孙子读他的册子,问他:"爷爷,你这一辈子看着湖,你到底学到了什么?"

周一想了很久,说:

两件事。一件是,雨和湖之间有一条精确的曲线——不是直线,也不是奇形怪状。它是一条就在那里的曲线——你下足够的雨,湖就会到那个高度。这条曲线不为人改变。

第二件事更怪。这条曲线本身是平滑的——但沿着这条曲线走的过程中,会有一些东西突然出现——蛙、鱼、水鸟、新的水草——那些东西在低水位时不在,过了某个水位它们就在了。它们不是被慢慢培育出来的,是被湖面撞到那个高度,自己出现的。

湖不创造蛙。湖只是给了蛙一个能存在的容器。等湖大到那个程度,蛙就来了。

孙子问:"那爷爷,你这一辈子量湖,有什么用?"

周一笑了:

用处大了。有了这条曲线,你就能预测——再下多少雨,这片湖会变多大,会出现什么新的生命。祖父没有解释这条曲线,但这条曲线本身已经是一种最大的知识——它告诉你,自然不是混沌的,自然有它的法则,法则的样子,你只要量得够久,就能画出来。

寓言之外

这就是 Scaling Laws(规模律,扩展定律)——2020 年由 OpenAI 的 Jared Kaplan 等人在论文 Scaling Laws for Neural Language Models 中正式提出的一组发现,改变了整个 AI 行业过去六年的发展节奏。

把神经网络的训练想象成那片湖。雨水对应你向模型投入的计算量(compute)、数据量(data)、参数量(parameters) 这三种资源。湖面高度对应模型的表现(loss 或具体任务的准确率)。

Kaplan 等人做了一系列大规模实验,在不同规模的模型(从几百万到几十亿参数)、不同的训练数据量、不同的训练计算量下,量出了 loss 和这三种资源之间的关系。

他们发现的事情震动了整个行业:

训练 loss 和计算量、数据量、参数量,之间存在精确的幂律关系(power law)。

写成公式:

L(N) ≈ a × N^(-α)

其中 N 是参数量(或 data, 或 compute),L 是 loss,α 是一个介于 0.05 到 0.10 之间的常数。

这意味着——给我一个语言模型在 1 亿参数下的 loss,我能精确预测它在 100 亿参数下的 loss。这不是个估计,这是一条定律。如果你在小规模上 fit 这条曲线,大规模的表现几乎就在曲线的延长线上。

这件事的工程意义巨大:

模型公司可以"预测一个未训练的模型有多强"——决定是否投入巨额资金训练一个更大的模型时,不需要靠赌,只要在小规模做实验,把曲线拟合出来,延长到大规模即可。这就是 OpenAI、Anthropic、Google 在 2020-2024 年敢一次次投入越来越巨额计算的根本原因——他们知道结果会怎样。

算力 + 数据 + 参数的最优配比可被求解——2022 年 DeepMind 的 Chinchilla 论文(Hoffmann et al.)进一步发现:在固定 compute 预算下,模型大小和训练 token 数应该近乎 1:1 增长。GPT-3(2020)训练 token 不够,被发现是"under-trained";Chinchilla 70B 用同等 compute 但更多 token,性能超过 175B 的 GPT-3。这一发现重新定义了大模型的训练标准。

资源有限时的最优策略可计算——给我 1000 个 GPU 训练一周,我应该训练多大的模型?多少 token?Scaling Laws 给出了精确答案。

但寓言里更让人着迷的,是第二件事——湖里突然出现的蛙。

这就是 Emergent Abilities(涌现能力)——这是 2022 年 Wei 等人发现的另一个深刻现象:很多能力,在小模型上完全不存在(随机水平),但当模型规模跨过某个阈值之后,突然出现并迅速达到高水平。

例子:

多位数加法——GPT-3(125M)做不了,(1.3B)做不了,(13B)做不了,(175B)突然能做了
指令遵循——小模型完全不理解 "请把这段话翻译成法语",大模型自然就懂
Chain-of-Thought 推理——小模型不会"分步思考",大模型会(下一篇会讲)
使用工具(function calling)——超过一定规模才稳定可用
多步规划——更小的模型一步两步还行,复杂规划是大模型才有的能力

这些能力的曲线不是连续上升——是贴在地板上,然后突然垂直跃起。研究者把这种现象叫做 "phase transition(相变)"——和水到 100 度突然变蒸汽是同一种数学结构。

为什么会有相变?这是个开放问题。一些可能的解释:

多步任务的难度:做一件复杂事情需要 N 个子能力都达标,任何一个不够都会失败。如果每个子能力随规模渐进改善,整体成功率却是相乘的——只有所有子能力都过线,整体才能过线。这种"乘法关系"会造成视觉上的相变。
测度问题:有研究认为 emergent ability 是评测指标的产物——用更细的指标(对数似然、token 级准确率),曲线其实是平滑的,只是 0/1 评分把它放大成了"突现"(Schaeffer et al. 2023)。
真的相变:有研究反驳上述,指出在某些任务上,即使用平滑指标,也能看到清晰的能力相变。这件事仍在争论。

但对工程实践而言,有没有连续的解释并不重要——观察到的事实是:模型越大,能力的种类就越多;而新能力的出现时机,在某种意义上是可预测的(基于已有的 Scaling Laws + 历史数据)。

更深一层——Scaling Laws 揭示了一种关于"智能"的全新世界观:

也许智能不是一种被精心设计出来的东西,而是一种'被规模召唤出来的现象'。

人脑不是 100 倍蠕虫的脑就行——人脑可能恰好处于"足够大"的那个相变之上。语言能力、抽象思维、自我意识——这些可能不是被基因细致编码的"功能",而是当神经元数量、连接复杂度跨过某个阈值时,自然涌现的现象。

如果这是真的,那 Scaling Laws 不只是 AI 的事——它可能是这个宇宙关于"复杂系统如何产生新性质"的一条普遍规律的一个特例。

周一的祖父没有解释那条曲线。他只记录。也许这是面对宇宙之美的最好态度——不解释,只记录,直到这条曲线变成一种知识本身。

在 AI 史的位置

Scaling Laws 的奠基论文是 2020 年 1 月 OpenAI 发表的 Scaling Laws for Neural Language Models(Kaplan, McCandlish 等),正式给出了语言模型的幂律行为。

2020 年 5 月 GPT-3 发表(Brown et al.),175B 参数,用实际行动证明了 Scaling Laws 不是理论游戏——直接把规模推到这条曲线的远端,看到了 in-context learning 等惊人的涌现能力。这是大模型时代的真正开端。

2022 年 3 月 DeepMind 的 Chinchilla 论文修正了 Scaling Laws——最优数据量比 Kaplan 估计的更大,模型应该 train more, not bigger。这直接影响了之后所有大模型的训练策略:LLaMA、PaLM 2、GPT-4 都按 Chinchilla 律来配 data 和 params。

2022 年 6 月 论文 Emergent Abilities of Large Language Models(Wei et al.)系统整理了"涌现能力"的现象,提出 137 种任务上观察到的相变行为。这是大模型"超越渐进改善"的第一次集中证据。

2023 年起,Scaling Laws 在多模态(vision-language)、强化学习、agents 等更多场景上被验证。Anthropic 的 RSP(Responsible Scaling Policy)、OpenAI 的 capability evaluation framework——本质都是在用 Scaling Laws 预测下一代模型可能出现的危险能力,提前部署应对方案。

到了 2026 年——尽管学界对 "Scaling Laws 还能持续多久"、"是否到了'数据墙'"、"训练计算还能再扩 10 倍吗" 有激烈争论,但 Scaling Laws 作为一个工程信仰,已经深深扎根在每一家前沿大模型公司的战略里。他们都在赌——只要够大的雨,湖就还能再大;只要再大,新的蛙就会自己出现。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:18. 够大的雨终会灌满湖

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/18-够大的雨终会灌满湖/

本文最后一次更新为天前，文章中的某些内容可能已过时！

18. 够大的雨终会灌满湖

够大的规模,会让一些从前不存在的东西自己出现

寓言之外

在 AI 史的位置