意义不在书里,意义在书与书之间的距离里

老图书管理员接手这座馆的时候,里面有二十万本书,全乱着。

他不识字。

这不是夸张——他从小视力不好,书上的字对他只是模糊的黑色痕迹。但他被任命为馆主。他问自己一个问题:一个不读书的人,怎么替读书的人管理一座图书馆?

他的做法很慢。他在馆里坐下,看着来来往往的读者。每当有一个读者来借书,他都记下来——这个读者这次同时借走了哪些书。一开始他什么都看不出来。十年过去,他的笔记有了一本字典那么厚。他开始注意到:

《潮汐变化的解释》和《月球运行轨迹》总是被一起借走——被不同的人,在不同的时间,以惊人的一致性。 《野果图谱》和《森林动物习性》被借在一起,但《潮汐变化的解释》几乎从不和它们一同出现《十四行诗集》和《古希腊戏剧》经常一起被借,但从不和《月球运行轨迹》一起出现——除了那本《天文学与诗》,它同时出现在两个阵营里

他不知道这些书讲的是什么。他只知道哪些书常常和哪些书一起出现

然后他做了一件事——他开始根据这些共现,重新摆放这些书在架子上的位置。相伴出现的两本书,他就把它们挪近一点;从来不一起出现的,他就让它们在馆里分得很开。

起初他每天只挪几本,每挪一本他都会再想想这本书和它新邻居们的关系是否合适。几年过去,他挪了几万次。再后来,他发现一个奇妙的现象:整座图书馆形成了一张地图

东边墙根一带,全是自然类的书。往北走,渐渐变成地理。再往北,变成历史。西边墙根是诗歌,往北是戏剧,再北是哲学。最北的角落,几本形而上的书彼此紧挨在一起。中央地带则是一些跨界的书——《天文学与诗》《博物史与神话》——它们坐在馆的中心,连接着四周。

他开始能做一件很奇怪的事。有读者来问他:"我喜欢《月球运行轨迹》,但我听说还有一本书讲潮汐背后的数学,我想借。"他不识字,但他走到《月球运行轨迹》那一格,朝它斜上方伸手——因为他知道"讲潮汐背后的数学"在他这张地图上就在这个方向——他抽出一本书递给读者。读者翻了翻,惊讶地说"就是这本"。

他还能做一件更奇怪的事。有一本新书送来了,他闻都没闻过,打开也读不懂。他问送书的人:"谁会借这本书,你知道吗?"送书人说:"大概会借《古希腊戏剧》的那些人吧。"他就把它放到了戏剧区的某一格——但不是随便一格,是戏剧区稍微偏向哲学的那一角——因为送书人补了一句:"但它也有点深奥。"几个月后,果然,借它的人同时也借走了它隔壁的《柏拉图对话》。

他不识字,但他知道每本书在世界里的位置。他不懂语义,但他用距离表达了语义

在他退休的那天,新任的馆主问他:你摆了一辈子的书,你到底摆的是什么?

他说:我摆的不是书。我摆的是书和书之间的关系。那些关系,其实就是这个世界本身。

寓言之外

这就是 Embedding(嵌入)——现代 AI 用来表示"意义"的方式。

把每本书想象成一个词、一张图片、一段音频、一个用户、一个商品——任何你想让机器"理解"的东西。Embedding 是把这些东西表示为一个高维空间中的一个点(一个向量)。两个东西在这个空间里越接近,它们在"意义"上就越相关。

老图书管理员在做的,就是给每本书找一个它在空间里的坐标。他用的线索非常朴素——哪些书常常一起被借。这叫分布假设(Distributional Hypothesis),一句话:一个东西的意义,由它常常出现在什么东西旁边决定

2013 年 Google 的一群人(Mikolov 等)把这个假设用到语言上,发明了 word2vec——把每个词表示为一个几百维的向量,训练目标是让常常出现在同一个句子里的词,在向量空间里靠得更近。结果是惊人的:

  • "国王 - 男人 + 女人" 在向量空间里的结果,几乎精确地等于 "女王"
  • "巴黎 - 法国 + 日本" 几乎精确地等于 "东京"
  • "走 - 走了 + 跑" 几乎等于 "跑了"

没有人教模型什么是性别、什么是首都、什么是时态。但这些概念自然而然地在空间里浮现出来,变成了可以做算术的方向。

这种"不告诉模型是什么,只告诉模型谁和谁相关,让它自己形成一张地图"的做法,是整个深度学习的核心思路之一,叫 Representation Learning(表示学习)。今天你用的一切 AI 系统——从图像识别到推荐系统到 ChatGPT——底层都是某种 embedding

  • 图像里,每张照片被表示为一个向量,相似的照片(同一个人、同一个场景)靠得近
  • 推荐系统里,每个用户和每个商品都是一个向量,点积高的就是推荐候选
  • 搜索引擎里,你的查询和文档都是向量,你搜索 "怎么降血压" 能搜到一篇叫 "高血压饮食指南" 的文章,不是因为关键词匹配,而是因为它们的向量在同一个邻域

更深一层——老馆主建造的那张地图,其实对应着一个叫做**流形假设(Manifold Hypothesis)**的观念:真实世界中有意义的数据,虽然看似维度极高(一张照片有几百万像素),但它们其实分布在一个相对低维的弯曲流形上。猫的照片和狗的照片在像素空间里是几百万维的一团混沌,但在"内容空间"里,它们其实是在一个几百维的流形上,沿着一条可理解的方向排列。

深度神经网络做的事情,可以概括成一句话:学会把原始输入(高维、混乱)映射到一个好用的 embedding 空间(低维、有结构)。分类、生成、检索,都是在这个空间里做的下游操作。一旦表示做好了,下游任务就变得简单。

老馆主最大的智慧是:他没有试图去读懂每一本书。他知道自己做不到——书太多,他太老。他只做一件事:观察共现,然后移动位置。这在高维空间里,就是 gradient descent + contrastive learning 的精神——每看到一对相关的东西,就把它们的向量拉近一点;每看到一对不相关的,就把它们推远一点。亿万次之后,一张地图就浮现出来了。

意义从来不是藏在单个事物里,意义是在事物之间的距离与方向中涌现的。

这句话,可能是整个现代 AI 的第一原理。

版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。

(采用 CC BY-NC-SA 4.0 许可协议进行授权)

本文标题:04. 把世界搬上书架的图书管理员

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/04-把世界搬上书架的图书管理员/

本文最后一次更新为 天前,文章中的某些内容可能已过时!

目录