20. 一支笔里藏着五种颜色

那一段路过城里的画师,只带了一支笔。

她叫柳青,从一个外地来,据说是要画一幅给城南老庙的壁画。城南老庙的壁画很大——按规矩,应当用至少五种以上颜色的墨——朱、青、黛、赭、金。可是柳青到的时候,身上只有一支笔、一砚墨。

老庙里的住持很担心:"师父,你只带了黑墨,怎么画我们这壁画?这幅图有红的火、蓝的水、绿的山、金的光——你一支笔怎么够?"

柳青没说话。她让人把笔砚摆好,只用那一砚墨开始画。

第一笔下去,是黑色。第二笔斜了一点,仍然是黑色。第三笔加了水分,变成淡墨——还是黑色。第四笔——

第四笔,看起来是红色的。

住持愣住了。他凑近去看——纸上那一笔确实是红的——它有火的颜色。但那砚台里明明是黑墨,柳青手里的笔上也是黑墨。红色从哪里来?

柳青又画了几笔。这一笔变成了蓝色。下一笔是绿色。再下一笔是金色。整幅壁画一点点显形——朱、青、黛、赭、金,五种颜色完整地出现在墙上——但柳青从头到尾只用了那一支笔、那一砚黑墨。

住持再也忍不住了:"师父,你用的是什么戏法?这墨是变的吗?"

柳青擦了擦手,说:

不是变的。墨自始至终就是黑墨。我也没用任何别的颜料。

住持不信。他凑到墙上,用手指刮了一下那块"红色"的火——指尖染下来的是黑色。他再刮"蓝色"的水——还是黑色。

他完全糊涂了。他不可能在墙上看出红、蓝、绿、金,但从壁画上刮下来的全是黑。

柳青耐心地解释:

你的眼睛看到的颜色,不在我的墨里。你的眼睛看到的颜色,在我笔的角度、我下笔的轻重、我笔锋停留的时长、我和上一笔之间的关系——里面。

同一支黑墨笔,斜 30 度轻轻一带,你看到的是火的红;直立着重重一压再向下拖,你看到的是水的蓝;笔尖蘸水稀释后再点一下,你看到的是山的绿——这些'颜色'不是物理上的红蓝绿,是画面里这一块和那一块之间产生的关系——你的眼睛习惯了把这种关系翻译成颜色。

我没有给你五种颜料。我用一支笔的五种状态,在你的眼睛里召唤了五种颜色。一支笔同时承载了五种"颜色的潜能"——只看你怎么使用它。

住持听了半天,慢慢明白:画师没有变魔术——她只是让一支笔同时是五支笔。在不同的角度、不同的力道、不同的语境下,这一支笔承载着不同的功能——但它本身始终是同一支笔。

第二天,城里有学者来论道。学者听完这件事,问柳青:"那如果一幅画需要五十种颜色,你也能用一支笔画?"

柳青笑了:

能。只要每一种颜色对笔的'角度、压力、节奏'要求都不一样,我就能在同一支笔上承载五十种。

关键不是笔有多少,关键是每种颜色,在笔的状态空间里,占据不同的方向。只要这些方向之间互相不冲突,我就能在一支笔里藏五十种、五百种、甚至更多颜色。

学者沉默了很久,问:"那如果两种颜色对笔的状态要求完全一样呢?"

柳青回答:"那就只能选一个。这两种颜色'重合'了,一支笔分不出它们。"

学者再问:"那如果颜色们大致不重合,但有一点点重合呢?"

柳青想了想,说:

那就有时候会画错。我以为我在画红色,但因为红色和绿色有一点点重合,'绿色的成分'被悄悄激活了。我画出的红色里,带着一丝丝意外的绿。

这个错误非常微妙——一般人看不出来。但真正的鉴赏家,能从中读出那一点点不该有的颜色。

学者听完,长叹一声,说:"原来一支笔里可以藏这么多事情。但藏得越多,有时候也越容易出怪事。"

柳青收起她的笔:**"对。一支笔藏一种颜色,清楚但浅。一支笔藏五十种,深但易乱。这就是这世上每一支真正的笔的命运——你要选'清楚'还是'丰富',你不能两个都要"。

寓言之外

这就是 Superposition(叠加)——Anthropic 在 2022 年起的一系列机械可解释性(Mechanistic Interpretability)研究中,对神经网络如何"压缩信息"的一种深刻发现。

把神经网络的某一层想象成柳青的笔。这一层有 N 个神经元(比如 N = 1024)——你以为这意味着这一层最多能"识别 1024 种特征"。事实远不是这样。

一个神经网络可以表示远远多于 N 个特征,只要这些特征不全部同时活跃。

怎么做到?特征不是被分配给单个神经元,而是被分配给"激活空间里的方向"——而N 维空间里有无穷多个不同的方向。

具体来说,假设这一层有 1024 个神经元——这一层的激活就是一个 1024 维的向量。一个 "特征" 不是 "第 137 号神经元",而是 "激活向量在某个特定方向上的投影"。这个方向是一个 1024 维的单位向量。

N 维空间里能有多少个 "几乎正交" 的方向?数学告诉我们:

完全正交的方向最多 N 个(这是经典线性代数)
但允许"几乎正交"(角度大于 89.9 度的)方向,可以有指数级多个(Johnson-Lindenstrauss 引理)——可以是 100N、10000N、甚至 e^N 个

这就是寓言里那位学者听完柳青的话的瞬间领悟——"只要每种颜色对笔的状态要求都不一样,就能藏五十种。" 在 1024 维空间里,藏 1 万种特征是完全可能的——只要这一万个方向几乎不重合。

Anthropic 的研究者(包括 Chris Olah、Catherine Olsson 等)在 2022 年的论文 Toy Models of Superposition 中,用极简的 toy model 验证了这个现象的存在。他们发现:

当神经元数量 < 真实特征数量时,网络会自动学会用 superposition 编码——多个特征共享同一组神经元,通过不同的激活方向区分。

当神经元数量 ≥ 真实特征数量时,网络可能(但不总是)选择"一个神经元一个特征"的清晰编码,没有 superposition。

实际中神经网络远小于"世界上的概念数量",所以superposition 是大模型的常态——一个 GPT 内部肯定有 superposition。

但 superposition 有一个代价——寓言里柳青提到的"画错"。当两个特征的方向有一点重合(不完全正交),激活其中一个会让另一个"被微弱地误激活"。这种 "干扰" 就是 superposition 的代价。

研究者把这种干扰命名为 "interference"(干扰)——它解释了一些之前难以理解的现象:

Polysemantic neurons(多义神经元)——你打开 GPT 的某个具体神经元看,你会发现它对很多不相关的事情都激活——既对 "巴黎" 激活,又对 "苹果" 激活,又对 "悲伤" 激活。这不是 bug,是 superposition 的直接表现——这个神经元承担着多个特征的合成信号。

模型在某些场景下的不可预测行为——superposition 意味着特征之间总有微弱的耦合,激活一个概念会"无意中"激活相关的另一个。这导致语言模型有时会输出莫名其妙的关联——"幻觉"、"风格漂移"、"突然的偏见暴露"——很多都可能源于 interference。

对抗样本的可能机制——superposition 让特征空间高度密集——任何一个微小扰动都可能从一个方向跳到一个相邻方向,激活完全不同的特征。这是为什么神经网络对小扰动如此敏感的一个解释。

Anthropic 后续的工作——Sparse Autoencoder(稀疏自编码器,SAE)(2023-2024)——给出了"反向解构 superposition"的工具。它的思路是:

训练一个比原网络更宽得多的辅助模型,让这个辅助模型用 稀疏激活(只激活少数神经元)去重建原模型的内部激活。这个辅助模型的每个神经元——因为它必须稀疏激活——更可能对应一个清晰的、单一含义的特征。

通过这种"扩展再稀疏"的技术,Anthropic 在 2024 年 发表的 Scaling Monosemanticity 中,从 Claude Sonnet 的内部激活里抽出了 3000 万个清晰特征——包括 "金门大桥"、"内心冲突"、"Python 代码错误"、"诗意的隐喻" 等等具体概念。

更让人毛骨悚然的是——他们能直接调高某个特征,看模型行为如何改变。把 "金门大桥" 这个特征的激活强度调到 100 倍,Claude 开始所有回答都和金门大桥有关——问它"我今天该穿什么",它开始描述如何穿越金门大桥。这就是 "feature steering"(特征引导)——用 superposition 解构后,我们第一次有能力直接操控模型在想什么。

更深一层——superposition 揭示了一种关于"信息密度"的根本权衡:

清晰 vs 丰富,你不能两个都要。

如果你的网络要表达 N 种独立特征,且每种特征清晰对应一个神经元——你需要至少 N 个神经元。这种"清晰"的代价是大——你的容量被特征数量限制。

如果你允许 superposition——你可以用 N 个神经元表达 1000N 种特征。这种"丰富"的代价是干扰——特征之间会互相影响,模型行为不再完全可解释。

真实的智能系统——人脑、大模型、可能也包括所有复杂自适应系统——几乎必然走向 superposition。信息密度的需求总是大于神经元数量,你必须复用——一神之内,藏着五十神。

这件事远远超出了 AI——任何复杂的代码、任何复杂的语言、任何复杂的理论体系,都在做同样的事:用有限的符号承载无限的概念,代价就是符号之间总会有微妙的纠缠。

柳青的那一支笔,就是每一个真正复杂系统的隐喻——你想要它能承载更多,你就必须接受它有时会"出错"。清楚和丰富,从来就是一枚硬币的两面。

在 AI 史的位置

Superposition 的概念最早可以追溯到 2017-2020 年 的一些 sparse coding 工作,但作为大语言模型的核心解释框架,它真正登场是 2022 年 9 月 Anthropic 发表的 Toy Models of Superposition(Elhage, Hume, Olsson 等)。这篇论文奠定了 mechanistic interpretability 的现代议程——理解 LLM,从理解 superposition 开始。

2023-2024 年 是 mechanistic interpretability 的爆发期:

Sparse Autoencoders 被广泛使用,从 GPT-2 到 Claude 到 Llama 都被解构
Feature steering 成为新的研究方向,直接操控 LLM 内部表示
Circuit-level analysis(电路级分析)——把 superposition 解构后,能追溯模型内部某个具体行为是怎么从输入一路计算出来的
Anthropic 的 Sonnet 解构图谱(2024 年 5 月)——3000 万个特征被命名、可视化,这是第一次有人公开"打开"了一个生产级 LLM 的脑壳

到 2026 年,Mechanistic Interpretability 已经从一个学术小众领域,成长为 AI 安全的核心议题之一。理解 AI 内部的 superposition 结构,被视为"对齐问题"的关键路径之一——你只有看懂模型在想什么,才能让它做你真正想要它做的事。

柳青的笔,被一群人,正在一根毛一根毛地拆开。

写在最后

AI 寓言集 到这一篇结束。从 01 的"图书馆里的低语"(Self-Attention)到现在的"一支笔里藏着五种颜色"(Superposition),我们用 20 个故事走过了 AI 概念的发展时间线——

从 18 世纪 Bayes 推断 的概率根源,到 19 世纪的梯度下降,到 20 世纪中叶的多臂老虎机,到 80 年代的 CNN,到 90 年代的 LSTM,到 2010 年代的 word2vec、GAN、Adversarial Examples、ResNet、Distillation,到 Transformer 时代的 Attention、MoE、Reward Hacking,到 大模型时代的 Lottery Ticket、Diffusion、Scaling Laws、CoT、Superposition、Grokking。

如果你按时间顺序读完了这二十篇,你已经走过了一遍现代 AI 的精神史。

寓言不会替代论文,也不会让你跳过那些数学。但寓言能给你一种东西——当你后来在论文里看到那个公式时,你的脑子里有一个画面,有一段故事,有一种"啊,我懂了"的瞬间。

这就是寓言唯一也最重要的功能:让一个抽象的东西,在你心里有一个家。

愿这二十座小屋,你常去坐坐。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:20. 一支笔里藏着五种颜色

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/20-一支笔里藏着五种颜色/

本文最后一次更新为天前，文章中的某些内容可能已过时！