学会新事的代价,有时候是悄悄地失去旧事
老画师姓周,这辈子只画一种东西——江南的水墨。
烟雨、桥、芦苇、远山、归雁。三十年下来,他的手是有记忆的。他闭上眼睛都能画一座桥——湿笔的浓淡、留白的呼吸、三七分的构图——他不需要想,手自己会走。村里人都说,周师父的画,离开他这只手,就不是这个味了。
四十五岁那年,他去了一趟北方。
北方有种他从来没见过的画法——重彩、宫廷工笔、金粉勾边。他看了一眼,心动了。他想了一想,觉得自己这辈子如果只会一种笔法,死的时候是会遗憾的。他向家里告了一年假,搬到了北方,去拜一位工笔大师为师。
第一天,他什么都不会。重彩的颜料怎么调,他不懂;金粉怎么贴,他不懂;工笔的描线要多细,他的手不听话。师父让他从最简单的描线开始,他描了三百根线,师父说没一根合格。
第二个月,他能描出一些大致像样的线了。第三个月,他第一次完成一幅小工笔——一只蝉。师父看了点点头说"还行"。
那天晚上,他闲着无事,想画一张江南的小品消遣。他取出水墨笔,蘸了水,落到宣纸上,准备画一座他闭着眼都画过千百遍的桥——
他的手停住了。
他记不起那个桥的湿笔该是多少水分了。他试着画了几笔,出来的线条死板、僵硬、没有水墨该有的呼吸。他换了一张纸,又试。还是不对。再试。还是不对。
他坐在那里,看着自己写了三十年的手,觉得这只手已经不是他的了。
"怎么会这样?"他问。
第二天他把这事告诉了师父。师父听完想了很久,说:
你的手是一个学生。它不是两个学生。它是一个学生,它能学会的总量是有限的。每一笔工笔的描线,在它身上写下了一些东西;同时,也擦去了一些东西。你写得越多新的,旧的擦得越多。
你以为你这三个月只是在"学新的"。其实你同时也在"忘旧的"。学新的本身,就是忘旧的过程——只是你从来没意识到。
老画师听完,一夜没睡。
第三天,他做了一件事——他每天上午仍然学工笔,但下午,他必须画一张江南水墨。哪怕只是一座小桥,哪怕只是几根芦苇,他必须每天提醒他的手"你以前是谁"。这个习惯他坚持了一年。
一年后他回到江南。他既能画江南的水墨,也能画北方的工笔。但他知道——如果他没有那个下午的练习,水墨这件事,他这辈子就再也找不回来了。
他把这个故事告诉了一个学画画的小孩。小孩问:"师父,那如果我学一辈子,会不会到老的时候发现什么都忘了?"
老画师看着窗外想了很久,说:
不会。但前提是,你要一辈子,每一段时间,都把过去的某一面拿出来,再画一遍。一只手能容纳的东西有限,但一个人通过反复练习,可以让任何一段过去都不彻底死去。
学习的真相不是"加上新的"。学习的真相是 ——在新的和旧的之间不停地寻找平衡,让两者都能活下来。
寓言之外
这就是 Catastrophic Forgetting(灾难性遗忘)——神经网络在持续学习中最普遍、最难根除的失败模式之一。
把神经网络的参数想象成老画师的手——它的"技能"全部存在于那一组数字里。模型在任务 A 上训练时,梯度下降在调整这些数字,让模型在 A 上表现好。然后你换一个新任务 B,继续用同一个模型训练——梯度下降照样工作,继续调整这些数字,让模型在 B 上表现好。
问题是:那些数字曾经是为 A 调好的。当你在 B 上做训练时,梯度只看到 B 的损失,不知道 A 存在过。它会毫不犹豫地把那些数字改写成对 B 有利、但对 A 有害的样子。等到 B 学好了,你再用同一个模型去做 A——它彻底废了,可能比从来没学过 A 还差。
这就是"灾难性"的含义:不是慢慢退化,是几乎完全清零。如果说人脑学新东西时旧东西会"模糊一点",那神经网络更像是把硬盘上的旧文件直接覆盖了。
为什么人脑没有这个问题(至少没那么严重)?这是个很深的问题,神经科学还没有完全的答案。但已知的几个机制:
记忆再激活与重放(Memory Replay)——人在睡觉时,海马体会"重放"白天的经历,把它们逐渐巩固到大脑皮层。这就是老画师下午"再画一遍江南"的生物版本。 特化分区(Modularity)——大脑不同区域负责不同功能,新学习不会大规模覆盖与之无关的区域。 慢学习与快学习的分离——大脑里有两套系统:海马体快速学习新经验,皮层慢慢吸收并保留它们(McClelland 1995 的"互补学习系统理论")。
机器学习里对应的应对方法,几乎都是在模仿人脑的这些机制:
Replay(经验回放)——存一个旧任务的小数据集,在新任务训练时把旧数据混进去——就是老画师下午画水墨的那一招。简单、有效、但要存数据,在隐私敏感场景受限。
正则化方法(EWC、SI 等)——给神经网络的权重设置"重要性"。识别出对任务 A 最关键的那些权重,在学习 B 时让梯度尽量不去动它们。Elastic Weight Consolidation(Kirkpatrick et al. 2017)是这个思路的经典实现:用 Fisher 信息矩阵估算权重对旧任务的重要性,把惩罚加进损失函数。
架构方法(Progressive Networks、Adapter)——给每个新任务额外开辟一些参数,旧任务的参数冻结不动,新参数只学新任务。LoRA、PEFT 这一类技术的精神接近这个——不去改原模型,只在旁边贴一个小补丁。
Meta-learning(元学习)——训练模型时就让它学会"怎么学新任务而不忘旧的"。让"会持续学习"本身成为一种被训出来的能力。
这个问题为什么对 AI 至关重要?因为现实中的 AI 永远都要面对新数据、新任务、新场景。
- 一个图像分类模型今天会识别 1000 类物体,明天用户希望它再加 50 类——重新训练一遍代价太高;持续学习会让它忘了原来的 1000 类
- 一个客服机器人在某个领域工作,客户业务扩展到新领域——它必须在不忘老业务的前提下学新业务
- 一个自动驾驶系统遇到一种新的交通场景(暴雨中的临时施工)——它要学会处理,但不能因此忘了普通晴天的规则
- 大语言模型的微调也是这个问题——为了让模型擅长某个垂直领域而微调,常常会让它损失通用能力("alignment tax")
更深一层——灾难性遗忘揭示了现代神经网络的一个根本架构限制:它的"知识"是全局耦合的——参数空间是一片湖,改一处都可能引起远处的涟漪。这和生物大脑的模块化形成对比。找到既灵活、又能局部改动的网络架构,是机器学习的长期开放问题之一。
老画师没读过深度学习的论文。但他凭直觉做到了一件至今仍是研究前沿的事——他知道,新东西不能只学新的,还得让旧的同步活下去。一只手能容纳的东西有限,但人有意识地反复回访,可以让两个矛盾的世界共存。
这件事说出来很简单。但你看,今天的大模型,做不到。
在 AI 史的位置
灾难性遗忘最早在 1989 年 由 McCloskey 和 Cohen 在一篇研究神经网络如何学加法的论文里被发现并命名。当时的发现震动了一些人——大家以为神经网络是个"大脑的简化版",结果发现它有一个真正的大脑不会有的弱点。
90 年代和 2000 年代,这个问题大体上被搁置了——那时候的主流是用不同模型分别训练不同任务,不存在"持续学习"的需求。
进入深度学习时代,2017 年 DeepMind 的 Kirkpatrick 等人发表了 Elastic Weight Consolidation(EWC),给出了一种相对优雅的应对方案,这是持续学习领域的复兴起点。2018 年起,Continual Learning 成为一个独立的研究方向,有了自己的会议和 benchmarks。
到了 大语言模型时代,这个问题以新的面目重新登场——对齐税(Alignment Tax):为了让模型遵从人类指令而做的 RLHF 训练,会让模型损失一部分预训练时学到的世界知识。Anthropic 和 OpenAI 都公开承认这个 tradeoff 的存在。怎么在不破坏通用能力的前提下做特化,仍然是 2026 年最热的工程问题之一。
这是一个看起来"早该解决"、但至今没人真正解决的问题。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:09. 学新手艺就忘旧的画师
本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/09-学新手艺就忘旧的画师/
本文最后一次更新为 天前,文章中的某些内容可能已过时!