也许成才不是后天的事,是一开始就埋在那里的事
那个山村有一个奇怪的风俗——每个新生儿在出生第七天,都要从山神庙里那只大瓮中抽一张签。
瓮里有一万张签。绝大多数是空白的——一万张里大概有九千九百多张,从打开看就是一张空纸。但有几百张签上,有字——上面写着一种命运。"百年木匠"、"看天的人"、"识药的人"、"养马的人"、"守山的人"——每张签写着一种独特的本事。
抽到空签的孩子,长大后会成为普通的村民——种地、嫁人、过完一辈子。他们一辈子也不会有什么传奇。
抽到有字签的孩子,注定不凡——但前提是,他在合适的时候遇到合适的师父、合适的境遇,把签上写的那条路走出来。
阿来是抽到空签的孩子之一。他这辈子种地、娶妻、生子。他不羡慕那些抽到签的同伴——他听说那些抽到签的人虽然有奇特的能力,但也得真的去把那条路走完才算数——很多人抽到了签,后来也没把那个本事修出来。
但有一件事让村里所有人都困惑——村正每过几十年都会做一次"重抽"。那是村里的一个秘传——把所有曾经抽到空签的人,聚到山神庙,让他们再抽一次。
每次重抽都会发现一件事:那些重抽中抽到了有字签的人,确实显出某些没人发现过的本事。但更奇怪的是——那些抽到空签的人,无论重抽多少次,他们一辈子都还是空签。
很多人怀疑这是巧合。
直到那一年,村里来了一位走遍南北的算命学者。他听说这件事,要求看一下村里那只大瓮——但村正告诉他,这是一只特殊的瓮:瓮里所有的签,从一万年前那只瓮被造出来就在那里了,从来没有人动过。每一个孩子出生时抽到的签,和那张签从瓮被造出来时就被放在某个特定的位置,有关。
学者想了很久,问村正一个问题:
你有没有想过——也许出生时抽到什么样的签,根本不取决于孩子,而是取决于那只瓮里最初是怎么排布的?
村正点点头:"我祖父跟我说过同样的话。他说,所谓的'命',其实就是那只瓮里的签的初始排布。人不是后天'变'成什么人,而是出生时那只瓮里恰好有的那些签,决定了他们能成为什么人。"
学者沉默了很久,然后做了一件事——他把那些抽到空签的人聚集起来,让他们一起,模拟一个新的村子,从头开始——但这次,他用同一只瓮——而瓮里的签,完全不变。
他想看一件事:这些"空签"的人,会重新长成原来的村子,还是会长出新的村子?
结果是——他们长成了原来的村子。
那些注定不凡的人,在重置后,仍然是注定不凡的那批人。那些注定平凡的人,也仍然是注定平凡的那批人。改变不了。
学者临走前,在村正的祖庙里写下一句话:
不是后来你变得不凡,是从一开始,你就藏着那张不凡的签。
训练没有让人成才。训练只是让那张本来就在你出生时藏在你身上的签,被找出来。
寓言之外
这就是 Lottery Ticket Hypothesis(彩票假说)——MIT 的 Jonathan Frankle 和 Michael Carbin 在 2019 年 一篇 ICLR 最佳论文中提出的、深度学习里最反直觉的发现之一。
这个假说说了什么?
把一个神经网络想象成那只大瓮。初始化时,这个网络的几百万、几十亿参数全部是随机数——大瓮里的签全部是随机分布的。网络中包含巨量的"潜在子网络"(就像瓮里有很多签,大部分是空白,少数有字)——任何一个稀疏的连接子集,都可以被想象成"瓮里的一张签"。
传统观念认为:深度网络之所以需要这么多参数,是因为我们需要训练一个庞然大物去逼近那个目标函数。所有参数都参与了"成才"的过程。
Frankle 和 Carbin 的实验表明:事实可能完全不是这样。
他们做了一个惊人的实验:
- 用随机初始化训练一个完整的网络——记录最终训得好的版本。
- 找出那些训练后变得"重要"的连接(权重大的)——把其他的连接全部"剪掉"。这通常能去掉 90% 以上的参数。
- 把剪枝后的稀疏网络重置回原来的随机初始化——但保留稀疏结构。
- 再用同样的训练流程训练这个稀疏网络。
结果令人震惊——这个稀疏网络,只用了原来 10% 的参数,在同样的训练数据下,达到了和原网络同样的准确率。
更进一步——他们做了对照实验:把同一个稀疏结构,用一组不同的随机初始化重新训练——性能大幅下降。也就是说,让那个稀疏网络成功的,不只是它的结构,还包括它一开始的那一组特定随机初始化值。
这就是寓言里的村正说的那句话——改变不了。不是结构,是结构 + 初始化值,两者一起,构成了那张"中奖签"。
Frankle 把这种"中奖签"称为 Winning Ticket(中奖彩票):一个完整随机初始化的网络里,藏着一些子网络,它们已经具备了被训练成功的潜力。训练做的事情,不是从零开始建造,是把这些已经存在的中奖彩票"找出来、放大、激活"。
为什么这件事这么深刻?
它颠覆了我们对深度学习的理解——我们以为大模型之所以能学,是因为巨量参数都在训练中"长出"能力。Lottery Ticket 说不是。大部分参数是 "陪跑"——它们的存在不是为了贡献能力,是为了'保证至少有一些子网络中签'。
它解释了为什么过参数化(Overparameterization)有效——传统统计学认为参数多了会过拟合,深度学习的现实是参数越多反而越好(双下降现象)。Lottery Ticket 给出了一种解释:参数越多,瓮里的签越多,你抽到中奖签的概率就越大。所以过参数化的网络更容易训得好——不是因为它表达能力更强,而是因为它的内部彩票更多。
它指向了一种关于"为什么神经网络能学习"的全新理论——传统机器学习的损失景观分析(loss landscape)、收敛性证明、泛化界(generalization bounds)——很多东西在 Lottery Ticket 的视角下要重新审视。优化器找到的好解,可能根本不是从随机初始化"走"过去的,是初始化里"已经存在"的那个好解被识别出来的。
这件事的工程价值同样深远:
网络剪枝(Network Pruning)——既然只有一小部分参数有用,那训练后我们可以剪掉其他的,得到一个又快又准的小模型。这是模型压缩的一条主线。
Early Bird Tickets——后续研究发现,中奖彩票其实在训练早期就能被识别出来——你不用训完整个网络,只要训几个 epoch,就能找出哪些子网络是中奖的,然后只训那一部分。节省 80%+ 的训练算力(Chen et al. 2021)。
Lottery Ticket Rewinding——找到中奖彩票后,不只是重置到随机初始化,而是重置到"训练初期的某个点"——这样性能更好(Frankle et al. 2020)。这进一步说明,中奖彩票的"信息"在训练的最初几步就被注入了。
对超大规模模型的启示——GPT 这种千亿参数的模型,理论上里面也藏着中奖彩票。如果我们能找到它们,就能训练出"几亿参数版的 GPT-4"——这是当前 model compression 的圣杯。
但 Lottery Ticket 也有它的开放问题——为什么有些初始化是中奖签,有些不是?中奖签的结构有什么共同特征?能不能直接构造中奖签,不依赖随机初始化? 这些问题至今都没有完整答案。
更深一层——Lottery Ticket 触动了一个关于学习与命运的古老问题。人能不能通过努力变得不凡?还是说,某种"潜质"在出生那一刻就已经决定了?
机器学习给出的答案令人寒意——对于人工神经网络来说,学习更接近"发现",而不是"创造"。最终训得好的那个网络,早在它被随机初始化的那一秒,就已经埋藏在那一组数字里了。训练只是把它显化出来。
人脑当然不是机器学习模型。但这个发现仍然让人想——也许我们关于"成长"的某些直觉,比我们以为的更接近彩票。
在 AI 史的位置
Lottery Ticket Hypothesis 由 Jonathan Frankle(MIT 博士生,后加入 Mosaic ML)和 Michael Carbin 在 2019 年 ICLR 提出,论文 The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks 获得了那一年的 ICLR 最佳论文奖。这是深度学习近十年里理论方向最有影响力的论文之一。
2019-2021 年 是这个领域的爆发期——上百篇论文研究中奖彩票的性质、跨任务可迁移性、在 Transformer 等不同架构上的表现。
到 2026 年,Lottery Ticket Hypothesis 仍然是一个部分被验证、部分仍然神秘的猜想。它在 CNN 上被反复证实;在 Transformer 上也部分验证;但对超大规模 LLM,寻找中奖彩票仍是一个未完全攻克的工程难题。研究还在继续——这是机器学习理论界最有诗意、也最有深度的一个开放问题。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:16. 天生注定的那张彩票
本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/16-天生注定的那张彩票/
本文最后一次更新为 天前,文章中的某些内容可能已过时!