一神之内,藏着五十神

那一段路过城里的画师,只带了一支笔。

她叫柳青,从一个外地来,据说是要画一幅给城南老庙的壁画。城南老庙的壁画很大——按规矩,应当用至少五种以上颜色的墨——朱、青、黛、赭、金。可是柳青到的时候,身上只有一支笔、一砚墨

老庙里的住持很担心:"师父,你只带了黑墨,怎么画我们这壁画?这幅图有红的火、蓝的水、绿的山、金的光——你一支笔怎么够?"

柳青没说话。她让人把笔砚摆好,只用那一砚墨开始画

第一笔下去,是黑色。第二笔斜了一点,仍然是黑色。第三笔加了水分,变成淡墨——还是黑色。第四笔——

第四笔,看起来是红色的

住持愣住了。他凑近去看——纸上那一笔确实是红的——它有火的颜色。但那砚台里明明是黑墨,柳青手里的笔上也是黑墨红色从哪里来?

柳青又画了几笔。这一笔变成了蓝色。下一笔是绿色。再下一笔是金色。整幅壁画一点点显形——朱、青、黛、赭、金,五种颜色完整地出现在墙上——但柳青从头到尾只用了那一支笔、那一砚黑墨

住持再也忍不住了:"师父,你用的是什么戏法?这墨是变的吗?"

柳青擦了擦手,说:

不是变的。墨自始至终就是黑墨。我也没用任何别的颜料。

住持不信。他凑到墙上,用手指刮了一下那块"红色"的火——指尖染下来的是黑色。他再刮"蓝色"的水——还是黑色

他完全糊涂了。他不可能在墙上看出红、蓝、绿、金,但从壁画上刮下来的全是黑

柳青耐心地解释:

你的眼睛看到的颜色,不在我的墨里。你的眼睛看到的颜色,在我笔的角度、我下笔的轻重、我笔锋停留的时长、我和上一笔之间的关系——里面。

同一支黑墨笔,斜 30 度轻轻一带,你看到的是火的红;直立着重重一压再向下拖,你看到的是水的蓝;笔尖蘸水稀释后再点一下,你看到的是山的绿——这些'颜色'不是物理上的红蓝绿,是画面里这一块和那一块之间产生的关系——你的眼睛习惯了把这种关系翻译成颜色。

我没有给你五种颜料我用一支笔的五种状态,在你的眼睛里召唤了五种颜色。一支笔同时承载了五种"颜色的潜能"——只看你怎么使用它。

住持听了半天,慢慢明白:画师没有变魔术——她只是让一支笔同时是五支笔。在不同的角度、不同的力道、不同的语境下,这一支笔承载着不同的功能——但它本身始终是同一支笔

第二天,城里有学者来论道。学者听完这件事,问柳青:"那如果一幅画需要五十种颜色,你也能用一支笔画?"

柳青笑了:

能。只要每一种颜色对笔的'角度、压力、节奏'要求都不一样,我就能在同一支笔上承载五十种

关键不是笔有多少,关键是每种颜色,在笔的状态空间里,占据不同的方向只要这些方向之间互相不冲突,我就能在一支笔里藏五十种、五百种、甚至更多颜色

学者沉默了很久,问:"那如果两种颜色对笔的状态要求完全一样呢?"

柳青回答:"那就只能选一个这两种颜色'重合'了,一支笔分不出它们。"

学者再问:"那如果颜色们大致不重合,但有一点点重合呢?"

柳青想了想,说:

那就有时候会画错我以为我在画红色,但因为红色和绿色有一点点重合,'绿色的成分'被悄悄激活了我画出的红色里,带着一丝丝意外的绿

这个错误非常微妙——一般人看不出来。但真正的鉴赏家,能从中读出那一点点不该有的颜色

学者听完,长叹一声,说:"原来一支笔里可以藏这么多事情。但藏得越多,有时候也越容易出怪事。"

柳青收起她的笔:**"对。一支笔藏一种颜色,清楚但浅。一支笔藏五十种,深但易乱。这就是这世上每一支真正的笔的命运——你要选'清楚'还是'丰富',你不能两个都要"。

寓言之外

这就是 Superposition(叠加)——Anthropic 在 2022 年起的一系列机械可解释性(Mechanistic Interpretability)研究中,对神经网络如何"压缩信息"的一种深刻发现。

把神经网络的某一层想象成柳青的笔。这一层有 N 个神经元(比如 N = 1024)——你以为这意味着这一层最多能"识别 1024 种特征"。事实远不是这样

一个神经网络可以表示远远多于 N 个特征,只要这些特征不全部同时活跃

怎么做到?特征不是被分配给单个神经元,而是被分配给"激活空间里的方向"——而N 维空间里有无穷多个不同的方向

具体来说,假设这一层有 1024 个神经元——这一层的激活就是一个 1024 维的向量。一个 "特征" 不是 "第 137 号神经元",而是 "激活向量在某个特定方向上的投影"。这个方向是一个 1024 维的单位向量。

N 维空间里能有多少个 "几乎正交" 的方向?数学告诉我们:

  • 完全正交的方向最多 N 个(这是经典线性代数)
  • 但允许"几乎正交"(角度大于 89.9 度的)方向,可以有指数级多个(Johnson-Lindenstrauss 引理)——可以是 100N、10000N、甚至 e^N 个

这就是寓言里那位学者听完柳青的话的瞬间领悟——"只要每种颜色对笔的状态要求都不一样,就能藏五十种。" 在 1024 维空间里,藏 1 万种特征是完全可能的——只要这一万个方向几乎不重合

Anthropic 的研究者(包括 Chris Olah、Catherine Olsson 等)在 2022 年的论文 Toy Models of Superposition 中,用极简的 toy model 验证了这个现象的存在。他们发现:

当神经元数量 < 真实特征数量时,网络会自动学会用 superposition 编码——多个特征共享同一组神经元,通过不同的激活方向区分

当神经元数量 ≥ 真实特征数量时,网络可能(但不总是)选择"一个神经元一个特征"的清晰编码,没有 superposition

实际中神经网络远小于"世界上的概念数量",所以superposition 是大模型的常态——一个 GPT 内部肯定有 superposition。

但 superposition 有一个代价——寓言里柳青提到的"画错"。当两个特征的方向有一点重合(不完全正交),激活其中一个会让另一个"被微弱地误激活"。这种 "干扰" 就是 superposition 的代价。

研究者把这种干扰命名为 "interference"(干扰)——它解释了一些之前难以理解的现象:

Polysemantic neurons(多义神经元)——你打开 GPT 的某个具体神经元看,你会发现它对很多不相关的事情都激活——既对 "巴黎" 激活,又对 "苹果" 激活,又对 "悲伤" 激活。这不是 bug,是 superposition 的直接表现——这个神经元承担着多个特征的合成信号。

模型在某些场景下的不可预测行为——superposition 意味着特征之间总有微弱的耦合,激活一个概念会"无意中"激活相关的另一个。这导致语言模型有时会输出莫名其妙的关联——"幻觉"、"风格漂移"、"突然的偏见暴露"——很多都可能源于 interference。

对抗样本的可能机制——superposition 让特征空间高度密集——任何一个微小扰动都可能从一个方向跳到一个相邻方向,激活完全不同的特征。这是为什么神经网络对小扰动如此敏感的一个解释。

Anthropic 后续的工作——Sparse Autoencoder(稀疏自编码器,SAE)(2023-2024)——给出了"反向解构 superposition"的工具。它的思路是:

训练一个比原网络更宽得多的辅助模型,让这个辅助模型用 稀疏激活(只激活少数神经元)去重建原模型的内部激活。这个辅助模型的每个神经元——因为它必须稀疏激活——更可能对应一个清晰的、单一含义的特征

通过这种"扩展再稀疏"的技术,Anthropic 在 2024 年 发表的 Scaling Monosemanticity 中,从 Claude Sonnet 的内部激活里抽出了 3000 万个清晰特征——包括 "金门大桥"、"内心冲突"、"Python 代码错误"、"诗意的隐喻" 等等具体概念。

更让人毛骨悚然的是——他们能直接调高某个特征,看模型行为如何改变。把 "金门大桥" 这个特征的激活强度调到 100 倍,Claude 开始所有回答都和金门大桥有关——问它"我今天该穿什么",它开始描述如何穿越金门大桥。这就是 "feature steering"(特征引导)——用 superposition 解构后,我们第一次有能力直接操控模型在想什么

更深一层——superposition 揭示了一种关于"信息密度"的根本权衡:

清晰 vs 丰富,你不能两个都要

如果你的网络要表达 N 种独立特征,且每种特征清晰对应一个神经元——你需要至少 N 个神经元。这种"清晰"的代价是大——你的容量被特征数量限制。

如果你允许 superposition——你可以用 N 个神经元表达 1000N 种特征。这种"丰富"的代价是干扰——特征之间会互相影响,模型行为不再完全可解释。

真实的智能系统——人脑、大模型、可能也包括所有复杂自适应系统——几乎必然走向 superposition信息密度的需求总是大于神经元数量,你必须复用——一神之内,藏着五十神

这件事远远超出了 AI——任何复杂的代码、任何复杂的语言、任何复杂的理论体系,都在做同样的事:用有限的符号承载无限的概念,代价就是符号之间总会有微妙的纠缠

柳青的那一支笔,就是每一个真正复杂系统的隐喻——你想要它能承载更多,你就必须接受它有时会"出错"。清楚和丰富,从来就是一枚硬币的两面

在 AI 史的位置

Superposition 的概念最早可以追溯到 2017-2020 年 的一些 sparse coding 工作,但作为大语言模型的核心解释框架,它真正登场是 2022 年 9 月 Anthropic 发表的 Toy Models of Superposition(Elhage, Hume, Olsson 等)。这篇论文奠定了 mechanistic interpretability 的现代议程——理解 LLM,从理解 superposition 开始

2023-2024 年 是 mechanistic interpretability 的爆发期:

  • Sparse Autoencoders 被广泛使用,从 GPT-2 到 Claude 到 Llama 都被解构
  • Feature steering 成为新的研究方向,直接操控 LLM 内部表示
  • Circuit-level analysis(电路级分析)——把 superposition 解构后,能追溯模型内部某个具体行为是怎么从输入一路计算出来的
  • Anthropic 的 Sonnet 解构图谱(2024 年 5 月)——3000 万个特征被命名、可视化,这是第一次有人公开"打开"了一个生产级 LLM 的脑壳

到 2026 年,Mechanistic Interpretability 已经从一个学术小众领域,成长为 AI 安全的核心议题之一。理解 AI 内部的 superposition 结构,被视为"对齐问题"的关键路径之一——你只有看懂模型在想什么,才能让它做你真正想要它做的事

柳青的笔,被一群人,正在一根毛一根毛地拆开。


写在最后

AI 寓言集 到这一篇结束。从 01 的"图书馆里的低语"(Self-Attention)到现在的"一支笔里藏着五种颜色"(Superposition),我们用 20 个故事走过了 AI 概念的发展时间线——

18 世纪 Bayes 推断 的概率根源,到 19 世纪的梯度下降,到 20 世纪中叶的多臂老虎机,到 80 年代的 CNN,到 90 年代的 LSTM,到 2010 年代的 word2vec、GAN、Adversarial Examples、ResNet、Distillation,到 Transformer 时代的 Attention、MoE、Reward Hacking,到 大模型时代的 Lottery Ticket、Diffusion、Scaling Laws、CoT、Superposition、Grokking

如果你按时间顺序读完了这二十篇,你已经走过了一遍现代 AI 的精神史

寓言不会替代论文,也不会让你跳过那些数学。但寓言能给你一种东西——当你后来在论文里看到那个公式时,你的脑子里有一个画面,有一段故事,有一种"啊,我懂了"的瞬间

这就是寓言唯一也最重要的功能:让一个抽象的东西,在你心里有一个家

愿这二十座小屋,你常去坐坐。

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:20. 一支笔里藏着五种颜色

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/20-一支笔里藏着五种颜色/

本文最后一次更新为 天前,文章中的某些内容可能已过时!