老匠人不想留下作品,他想留下选择的犹豫

老匠人病了,还有三个月。

他是镇上唯一会做那种古瓷的人——一种从唐代传下来的釉色,配方和手法全在他一个人的身上。他教过徒弟,但每一个学到一半就走了。传统的师徒制需要十年,他没有十年。

镇长来看他,问他是否还有心愿。他想了很久,说:

我想把我这辈子的手艺,装进那个小孩子的脑子里

镇长顺他手指的方向看过去——是镇东头那个七岁的孤儿,阿秋。瘦小、沉默、整日在镇子里游荡。

"老师父,"镇长犹豫,"这孩子才七岁。他学不会那么多东西的。"

"我知道他学不会。"老匠人说,"但我不教他全部——我教他我脑子里的阴影。"

镇长不懂这句话。

第二天,阿秋被接到老匠人的作坊。老匠人做的第一件事出乎所有人的意料——他没有给阿秋讲配方,也没有让他背公式。他只是让阿秋坐在他的身边,看他做事

但老匠人每做一步,都要把自己"脑子里想了什么"全部说出来

"这块泥,我要不要加一点松灰——不加,因为今天天气潮,加了会裂;但如果冬天就得加了。" "这一笔我想画竹叶,又想画柳叶——选了柳叶,因为这只碗是要配酒的,柳叶更柔;但竹叶也可以,只差一点点。" "这个温度,我犹豫了一下要不要烧到 1280——没有,烧到了 1240;再高一度釉面就会发死,但我也想过 1250 也许可以。"

他从不只给阿秋看"正确答案"。他让阿秋看见他在正确答案旁边的那些"差一点点的选择"

他告诉阿秋:"如果我只告诉你 1240 度,你以后遇到今天一样的泥、一样的釉,你会烧 1240 度。但这个世界上大部分碗不会和今天的这只碗一样。你真正要知道的是——为什么是 1240 而不是 1230 或 1250,这三个温度在我眼里各自是什么样的如果你知道这三个温度在我脑子里的差距,你遇到新情况时,你才能重新想。"

阿秋听不懂,但他每天看、每天听。他不会画瓷,但他知道每一个选择的周围,都有一圈轻重不一的影子

老匠人死的时候,阿秋才七岁半。他连一个完整的碗都没做过。

十年过去。阿秋长成了少年,接手了那个作坊。他做的瓷不是老匠人的瓷——他做不出那种真正的极品。但他做出的瓷比镇上其他所有徒弟都好。不是因为他记得多少配方(他只记得老匠人那点断断续续的口诀),而是因为他脑子里每一个选择都带着一圈影子——他一只手伸出去,都会自动感受"还有几种别的可能"。

有一天一个外地人来买瓷,问他:"小师傅,你学了多少年?"

阿秋答:"我七岁到七岁半,半年。但我师父没有教我做瓷。"

外地人一愣:"那他教你什么?"

阿秋想了很久,说:

他教我他自己思考时,脑子里那些没有被选上的选项。每一个他抛弃的选项,都让我多一层对这个世界的理解。我从来没学会他那只手,但我继承了他那颗脑子的阴影

他把自己的犹豫,装进了我的梦里。

寓言之外

这就是 Knowledge Distillation(知识蒸馏)——Geoffrey Hinton 在 2015 年提出的、压缩模型最重要的手段之一。

把老匠人想象成一个训练好的大模型(Teacher Model)——它参数多、计算慢,但它极其准确。把阿秋想象成一个小模型(Student Model)——参数少、计算快,但直接训练它达不到大模型的水平。

传统的训练方式是什么样的?我们用带标签的数据训练小模型——每一个样本给它一个"正确答案",小模型学会这些正确答案,仅此而已。

问题是:正确答案是一个非常稀疏的信号。每一张图片只给小模型一个标签:"这是猫"。但事实上,那张图片在大模型眼里,不只是 100% 的猫——它可能是 92% 的猫、5% 的狗、2% 的狐狸、0.5% 的浣熊、0.1% 的羊驼。这些数字的相对大小,蕴含着大量关于这个样本本质的信息:它为什么更像狗而不是羊驼(因为它是哺乳动物)?为什么更像狐狸而不是兔子(因为它有尖耳朵)?

Hinton 把这些"不是正确答案、但又不是完全零"的概率分布,叫做 Dark Knowledge(暗知识)——它不像 hard label(正确答案)那么显眼,但它藏在那些"次优答案的相对大小"里。

蒸馏的做法非常简单:

  1. 用大模型对训练数据做一次推理,不只取 top-1 答案,而是取整个概率分布(叫做 soft target)。
  2. 训练小模型,损失函数不只是让它预测正确答案,还要让它的输出概率分布尽量接近大模型的输出分布

为了让分布里"非最高概率的那些信号"更明显,通常还会加一个 温度(Temperature) —— 把 softmax 里的 logit 除以 T (T > 1),把尖锐的分布变得柔和,让次优选项的信息放大。这就是寓言里老匠人反复说"我想过 1250,我想过 1230"——把在正确答案旁边的"差一点点"的选择显性化

为什么这么做效果这么好?

信息量对比:一个 hard label 承载 log(K) 比特的信息(K 是类别数);一个 soft distribution 承载的信息远远更多——它记录了每个类别之间的细微关系。模型从后者能学到"狗和狼近、狗和鱼远"这种语义结构。

相当于给了模型一组"学习伙伴的直觉":小模型不再孤军奋战,它有大模型作为先验——大模型的每一个犹豫都变成小模型学习的养分。

正则化的副作用:学 soft targets 的模型对噪声更鲁棒,因为它不是在学一个稀疏的 one-hot 向量,而是一个柔和的分布。

这项技术在工业界的价值是压倒性的:

边缘部署——大模型跑不动在手机上的,蒸馏出来的小模型能。Siri、Google Assistant 背后跑的都是各种蒸馏产物延迟敏感的服务——搜索引擎排序、推荐系统的实时打分,都用大模型训练+小模型部署的范式开源大模型生态——像 DistilBERT、TinyLLaMA、Qwen-Distill 这些模型,都是蒸馏出来的。Hugging Face 上大量 "-distilled" 后缀的模型,本质都在做这件事。 最近的前沿——DeepSeek R1 把自己的推理能力通过蒸馏传给更小的 LLaMA 和 Qwen 版本,让小模型在推理任务上逼近大模型的水平。这是 2025 年最受关注的工程范式之一。

更深一层——知识蒸馏揭示了一件非常有启发的事:知识的本质,不只是"哪个是对的",还包括"对的周围有哪些是差一点点对的、以及它们差多少"。一个真正懂一件事的人,不只是知道正确答案,他还知道这个答案为什么是这个答案、而不是那个几乎一样的另一个答案这种"选择的周边结构"才是真正的理解

大模型的这种知识,没办法通过标签单独传递——标签只有一个维度。只有通过"告诉你我所有的犹豫",才能把这种多维的理解送给下一代。

这也是为什么人类真正的师徒传承,从来不是通过"标准答案"这种东西传的——是通过师父边做边嘀咕师父自言自语的犹豫师父失败时的反应——那些不在教科书里的阴影,才是真的手艺

老匠人说"我把我的犹豫装进你的梦里"——这句话,也许是对知识蒸馏最诗意的描述。

在 AI 史的位置

蒸馏的雏形可以追溯到 2006 年 Caruana 等人的 "Model Compression" 工作,他们发现可以用大模型产生的标签训练小模型,在某些任务上能达到接近大模型的性能。2015 年 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 的论文 Distilling the Knowledge in a Neural Network 正式提出了现代意义上的蒸馏框架——Dark Knowledge 的概念Temperature 参数系统的 soft target 训练——这成为整个领域的奠基之作。

2019 年 Hugging Face 的 DistilBERT 让蒸馏在 NLP 领域火了起来——一个参数量只有 BERT 40% 的模型,性能保留了 97%。随后各种 Distilled 版本的模型井喷。

LLM 时代,蒸馏的意义更大了。一个 GPT-4 级别的模型在商业上部署的成本极高,但如果能把它的能力蒸馏进一个 Llama-3 8B 级别的模型里,就能大规模部署——这是 Anthropic、OpenAI、Google 都在做的事。2024-2025 年的 DeepSeek-R1 蒸馏系列把这件事推到了极致:把一个大模型的推理过程蒸馏给小模型,让小模型继承"思考的轨迹",而不只是"最终答案"。

老匠人的思想,在每一次新一代小模型诞生时,都在重演

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:13. 把老匠人装进一个孩子的梦里

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/13-把老匠人装进一个孩子的梦里/

本文最后一次更新为 天前,文章中的某些内容可能已过时!