信息聚合的一种新世界观

她推开门的时候,烛火被风吹歪了一下。

这是一座没有书的图书馆。两百二十张椅子绕着墙根摆成一圈,每张椅子上坐着一位老人。她手里握着一张纸,纸上写着她带来的疑问。

她不知道该问谁。馆主曾告诉她:每个人都问每个人

她走到第一位老人面前,把疑问递过去,然后伸出另一只手——老人的腰间别着一只小布袋,装着他这些年记下的笔记。她不能取笔记,只能让老人看一眼她的疑问,然后老人会从袋里抽出一段笔记给她。

她照着规矩,绕场一周,从两百二十位老人那里各取了一段。她回到自己的座位,把所有的纸条平铺在桌上。

但她不能把所有纸条都平等地相信。

馆主曾说:每位老人都有他擅长的领域。问"潮水如何形成"时,海边渔翁递的纸条要比山中樵夫递的更值得听。可她不能问每位老人"你擅长什么"——那要花太久。她只能凭一种直觉:在递出疑问的同时,用心去感受每位老人的笔袋——每个袋子都有一种独特的气息,而她的疑问也带着一种气息。两种气息相近时,她在心里给那位老人打一个高分;气息相去甚远,就是低分。

这种打分,不需要她睁眼。她把所有人打完分后,在心里做了一次分配:这位老人,我相信他七成;那位老人,只相信两成;这位风烛残年的老者,虽然只递给我一句话,但我相信他九成。然后她把所有纸条按这个权重融合在一起——气息相近者声音被放大,气息无关者被低声压下——结果就在她心里凝聚成一个新的判断。

她记下了这个判断。然后从自己腰间的笔袋里抽出一张纸,在上面写下今天她形成的新理解。

第二天,新的访客推开门进来。她已经成了第三排第七位老人。她腰间多了那一张纸。新访客问出新疑问时,她伸出手——让对方的疑问与她的笔条相互嗅闻——然后从中抽出一段递给对方。

馆主在大门口看着这一切。墙上挂着一行字,只有他能读懂:

每个人都在听每个人。但每个人只放大那些与自己气息相投的回答。

寓言之外

这就是 Self-Attention(自注意力)——Transformer 模型的核心机制。

把图书馆里的每位老人想象成序列里的一个 token(一个词、一个图像 patch、一个时间步)。每个 token 都向所有其他 token "广播"自己的疑问(Query),并从所有 token 那里收回响应(Value)。但响应不是平等地累加,而是按"两个 token 的气息有多相投"加权——这种气息匹配的强弱,由每对 Query-Key 的内积决定。

数学上写出来就一行:

Attention(Q, K, V) = softmax(QKᵀ / √d) · V

寓言里的"疑问"是 Q,"笔袋的气息"是 K,"递出来的纸条"是 V。气息匹配(QKᵀ)经过 softmax 变成权重,加权求和(乘 V)就是这个 token 的新理解。

为什么这件事这么重要?因为传统神经网络要么按固定顺序处理(RNN),要么按固定窗口处理(CNN),它们对"远处的信息和我有什么关系"判断得非常笨。Self-Attention 让每个 token 都能直接 "看到"所有其他 token,并且学着决定看谁、看多重。这不需要任何固定的距离或顺序,只看气息匹配。

这就是为什么 Transformer 能处理几千、几万 token 的长上下文,为什么它能让"前面提过的人物"和"后面对应的代词"在一瞬间联系上,为什么它能处理图像、音频、视频——只要你能把任何东西切成可以"互相嗅闻"的小块,自注意力就能在它们之间织一张语义的网。

Self-Attention 不是一个具体的运算技巧,它是一种新的信息聚合的世界观——让数据自己决定彼此该有什么关系,而不是由你预设。这个世界观,直到 2017 年的 "Attention Is All You Need" 论文之后,才真正改变了 AI 的版图。

GPT、Claude、Gemini、Llama,所有今天你听过名字的大模型,内核里都是这座图书馆。只不过那里的老人不止两百二十个,而是几万几十万,而且每位老人不是只递一张纸,是递好几张("multi-head attention")。一个回答的形成,是几十亿次"嗅闻 — 加权 — 融合"的瞬间叠加。

馆主从来没有说过"我教你们什么是知识"。他只是让每位访客学会对每个人的回答都打一个权重。从这个简单的规则里,涌现出了我们今天称为"理解"的东西。

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:01. 图书馆里的低语

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/01-图书馆里的低语/

本文最后一次更新为 天前,文章中的某些内容可能已过时!

目录