13. 把老匠人装进一个孩子的梦里

老匠人病了,还有三个月。

他是镇上唯一会做那种古瓷的人——一种从唐代传下来的釉色,配方和手法全在他一个人的身上。他教过徒弟,但每一个学到一半就走了。传统的师徒制需要十年,他没有十年。

镇长来看他,问他是否还有心愿。他想了很久,说:

我想把我这辈子的手艺,装进那个小孩子的脑子里。

镇长顺他手指的方向看过去——是镇东头那个七岁的孤儿,阿秋。瘦小、沉默、整日在镇子里游荡。

"老师父,"镇长犹豫,"这孩子才七岁。他学不会那么多东西的。"

"我知道他学不会。"老匠人说,"但我不教他全部——我教他我脑子里的阴影。"

镇长不懂这句话。

第二天,阿秋被接到老匠人的作坊。老匠人做的第一件事出乎所有人的意料——他没有给阿秋讲配方,也没有让他背公式。他只是让阿秋坐在他的身边,看他做事。

但老匠人每做一步,都要把自己"脑子里想了什么"全部说出来。

"这块泥,我要不要加一点松灰——不加,因为今天天气潮,加了会裂;但如果冬天就得加了。" "这一笔我想画竹叶,又想画柳叶——选了柳叶,因为这只碗是要配酒的,柳叶更柔;但竹叶也可以,只差一点点。" "这个温度,我犹豫了一下要不要烧到 1280——没有,烧到了 1240;再高一度釉面就会发死,但我也想过 1250 也许可以。"

他从不只给阿秋看"正确答案"。他让阿秋看见他在正确答案旁边的那些"差一点点的选择"。

他告诉阿秋:"如果我只告诉你 1240 度,你以后遇到今天一样的泥、一样的釉,你会烧 1240 度。但这个世界上大部分碗不会和今天的这只碗一样。你真正要知道的是——为什么是 1240 而不是 1230 或 1250,这三个温度在我眼里各自是什么样的。如果你知道这三个温度在我脑子里的差距,你遇到新情况时,你才能重新想。"

阿秋听不懂,但他每天看、每天听。他不会画瓷,但他知道每一个选择的周围,都有一圈轻重不一的影子。

老匠人死的时候,阿秋才七岁半。他连一个完整的碗都没做过。

十年过去。阿秋长成了少年,接手了那个作坊。他做的瓷不是老匠人的瓷——他做不出那种真正的极品。但他做出的瓷比镇上其他所有徒弟都好。不是因为他记得多少配方(他只记得老匠人那点断断续续的口诀),而是因为他脑子里每一个选择都带着一圈影子——他一只手伸出去,都会自动感受"还有几种别的可能"。

有一天一个外地人来买瓷,问他:"小师傅,你学了多少年?"

阿秋答:"我七岁到七岁半,半年。但我师父没有教我做瓷。"

外地人一愣:"那他教你什么?"

阿秋想了很久,说:

他教我他自己思考时,脑子里那些没有被选上的选项。每一个他抛弃的选项,都让我多一层对这个世界的理解。我从来没学会他那只手,但我继承了他那颗脑子的阴影。

他把自己的犹豫,装进了我的梦里。

寓言之外

这就是 Knowledge Distillation(知识蒸馏)——Geoffrey Hinton 在 2015 年提出的、压缩模型最重要的手段之一。

把老匠人想象成一个训练好的大模型(Teacher Model)——它参数多、计算慢,但它极其准确。把阿秋想象成一个小模型(Student Model)——参数少、计算快,但直接训练它达不到大模型的水平。

传统的训练方式是什么样的?我们用带标签的数据训练小模型——每一个样本给它一个"正确答案",小模型学会这些正确答案,仅此而已。

问题是:正确答案是一个非常稀疏的信号。每一张图片只给小模型一个标签:"这是猫"。但事实上,那张图片在大模型眼里,不只是 100% 的猫——它可能是 92% 的猫、5% 的狗、2% 的狐狸、0.5% 的浣熊、0.1% 的羊驼。这些数字的相对大小,蕴含着大量关于这个样本本质的信息:它为什么更像狗而不是羊驼(因为它是哺乳动物)?为什么更像狐狸而不是兔子(因为它有尖耳朵)?

Hinton 把这些"不是正确答案、但又不是完全零"的概率分布,叫做 Dark Knowledge(暗知识)——它不像 hard label(正确答案)那么显眼,但它藏在那些"次优答案的相对大小"里。

蒸馏的做法非常简单:

用大模型对训练数据做一次推理,不只取 top-1 答案,而是取整个概率分布(叫做 soft target)。
训练小模型,损失函数不只是让它预测正确答案,还要让它的输出概率分布尽量接近大模型的输出分布。

为了让分布里"非最高概率的那些信号"更明显,通常还会加一个 温度(Temperature) —— 把 softmax 里的 logit 除以 T (T > 1),把尖锐的分布变得柔和,让次优选项的信息放大。这就是寓言里老匠人反复说"我想过 1250,我想过 1230"——把在正确答案旁边的"差一点点"的选择显性化。

为什么这么做效果这么好?

信息量对比:一个 hard label 承载 log(K) 比特的信息(K 是类别数);一个 soft distribution 承载的信息远远更多——它记录了每个类别之间的细微关系。模型从后者能学到"狗和狼近、狗和鱼远"这种语义结构。

相当于给了模型一组"学习伙伴的直觉":小模型不再孤军奋战,它有大模型作为先验——大模型的每一个犹豫都变成小模型学习的养分。

正则化的副作用:学 soft targets 的模型对噪声更鲁棒,因为它不是在学一个稀疏的 one-hot 向量,而是一个柔和的分布。

这项技术在工业界的价值是压倒性的:

边缘部署——大模型跑不动在手机上的,蒸馏出来的小模型能。Siri、Google Assistant 背后跑的都是各种蒸馏产物。 延迟敏感的服务——搜索引擎排序、推荐系统的实时打分,都用大模型训练+小模型部署的范式。 开源大模型生态——像 DistilBERT、TinyLLaMA、Qwen-Distill 这些模型,都是蒸馏出来的。Hugging Face 上大量 "-distilled" 后缀的模型,本质都在做这件事。 最近的前沿——DeepSeek R1 把自己的推理能力通过蒸馏传给更小的 LLaMA 和 Qwen 版本,让小模型在推理任务上逼近大模型的水平。这是 2025 年最受关注的工程范式之一。

更深一层——知识蒸馏揭示了一件非常有启发的事:知识的本质,不只是"哪个是对的",还包括"对的周围有哪些是差一点点对的、以及它们差多少"。一个真正懂一件事的人,不只是知道正确答案,他还知道这个答案为什么是这个答案、而不是那个几乎一样的另一个答案。这种"选择的周边结构"才是真正的理解。

大模型的这种知识,没办法通过标签单独传递——标签只有一个维度。只有通过"告诉你我所有的犹豫",才能把这种多维的理解送给下一代。

这也是为什么人类真正的师徒传承,从来不是通过"标准答案"这种东西传的——是通过师父边做边嘀咕、师父自言自语的犹豫、师父失败时的反应——那些不在教科书里的阴影,才是真的手艺。

老匠人说"我把我的犹豫装进你的梦里"——这句话,也许是对知识蒸馏最诗意的描述。

在 AI 史的位置

蒸馏的雏形可以追溯到 2006 年 Caruana 等人的 "Model Compression" 工作,他们发现可以用大模型产生的标签训练小模型,在某些任务上能达到接近大模型的性能。2015 年 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 的论文 Distilling the Knowledge in a Neural Network 正式提出了现代意义上的蒸馏框架——Dark Knowledge 的概念、Temperature 参数、系统的 soft target 训练——这成为整个领域的奠基之作。

2019 年 Hugging Face 的 DistilBERT 让蒸馏在 NLP 领域火了起来——一个参数量只有 BERT 40% 的模型,性能保留了 97%。随后各种 Distilled 版本的模型井喷。

LLM 时代,蒸馏的意义更大了。一个 GPT-4 级别的模型在商业上部署的成本极高,但如果能把它的能力蒸馏进一个 Llama-3 8B 级别的模型里,就能大规模部署——这是 Anthropic、OpenAI、Google 都在做的事。2024-2025 年的 DeepSeek-R1 蒸馏系列把这件事推到了极致:把一个大模型的推理过程蒸馏给小模型,让小模型继承"思考的轨迹",而不只是"最终答案"。

老匠人的思想,在每一次新一代小模型诞生时,都在重演。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:13. 把老匠人装进一个孩子的梦里

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/13-把老匠人装进一个孩子的梦里/

本文最后一次更新为天前，文章中的某些内容可能已过时！

13. 把老匠人装进一个孩子的梦里

老匠人不想留下作品,他想留下选择的犹豫

寓言之外

在 AI 史的位置