19. 会大声自言自语的棋手

那是一场万人看的比试。

两位老国手坐在棋盘两边,中间隔着一张棋盘。他们的棋艺向来不分高下——往年下了百盘,几乎平分秋色。今年朝廷要分出谁是第一,让他们公开下三十盘,胜多者称国手。

第一位国手姓沈。沈国手出名的是他的沉默。整盘棋下来,他一句话不说,只听得见落子的声音。他思考的时候像一座山——你站在他面前,看不出他正在想什么,然后他就落子了。沉、稳、深不可测。看棋的人都说,沈国手的脑子像一片深海——你只看到平静的水面,看不见底下的波涛。

第二位国手姓严。严国手则正好相反——他整盘棋都在喃喃自语。下一颗子之前,他会大声地、详细地、把自己心里所有的盘算说出来:

"如果我下这里,他下那里,我下那里,他下这里——不行,那样我后面会缺一口。" "那如果我下这里呢?他可能下那里——但如果他下别的呢?他下别的我就……" "等等,这个角好像有个漏。我先看一下这个漏——啊,确实是漏。那我不能这么走。" "那这一步走这里。"

他自言自语的声音不大,但棋盘旁的人都能听清。他的思考是被他说出来的——一句句、有头有尾、从一个想法接到下一个想法。

观众一开始嘲笑严国手——"哪有这样下棋的?像念书一样。" 沈国手的沉默被认为是真正的高手——"高手胸有沟壑,何须开口。"

但比试开始后,结果出乎所有人意料。

第一盘——严国手赢。第二盘——沈国手赢。第三、第四、第五——严国手连胜三盘。

到了第十盘的时候,棋谱清楚地显示——严国手在简单局面里和沈国手平分秋色,但一到复杂的、需要算十几步以上的局面,严国手就会赢。

到了第二十盘,沈国手终于忍不住了。他停下棋,问严国手:

老兄,我们棋艺相当,这一辈子我最了解你。但是这十盘里,那些复杂的局面,你为什么算得过我?你是不是私下练了什么新法?

严国手摇摇头。他想了一会儿,说:

没有新法。我只是开始大声地讲我的思考。

沈国手不解:"讲出来,和不讲出来,有什么差别?思考不就在脑子里吗?"

严国手沉默良久,说:

你以为讲出来只是一个'记录'。其实不是。你不讲,你以为自己在思考——但你的思考是飘的、是跳跃的、是只走两三步就短路的。

复杂的局面要算十五步、二十步。人脑的'安静思考'根本撑不住这个长度——走到第七步、第八步,你的脑子就开始打补丁、抄近路、自己骗自己说"差不多就是这样"——然后你就落了一颗其实你没仔细算过的子。你以为算过了,因为你脑子里有那种"我算过了"的感觉。但其实你没有。

而我讲出来的时候——每一句话必须接着上一句话,每一个推论必须有个理由。我说出"那如果他下别的呢"这句话的时候,我必须真的去看那个'别的'是什么——我不能跳过去。讲话这件事的物理性,逼着我的思考一步一步走完整。

沉默的我和大声的我棋艺一样。但大声的我,真的把每一步算到了——而沉默的我,只是以为算到了。

沈国手听完,沉默了很久。

那盘棋最后他认输了。比试以严国手 19 比 11 胜结束。朝廷封他为国手。

但比试结束当晚,严国手单独去找沈国手,说了一句话——这句话后来被刻在严国手的墓碑上:

我没有比你聪明。我只是不再相信我脑子里那种'我算过了'的感觉,而是把每一步都念出来,亲耳听见。

思考是要被说出来,才真的发生的。

寓言之外

这就是 Chain of Thought(思维链,简称 CoT)——2022 年 Jason Wei 等人在论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 中正式提出的一种 prompt 技巧,改变了我们怎么 "调用" 大模型的智能。

把大语言模型想象成一位棋手——你给它一个问题,它要给你一个答案。

朴素的用法(沈国手式)是这样:你直接问 "27 × 13 是多少?" 模型直接输出 "351"。模型不写中间步骤,直接给最终答案——它的所有 "推理" 必须在这一次 forward pass 里隐式完成。

但研究者发现了一个有趣现象——对于复杂的问题(数学应用题、多步逻辑、规划),模型直接给答案的准确率惨不忍睹。但只要你在 prompt 里加一句"Let's think step by step"(或者给几个"分步推理"的例子),让模型先生成中间步骤、再给答案——准确率瞬间几倍地上升。

例子(经典的 GSM8K 数学题):

Q: 罗杰有 5 个网球。他又买了 2 罐网球,每罐有 3 个球。他现在有多少个球?

直接回答:模型常常蒙一个数字,准确率极低。

CoT prompt:"让我们一步步思考。"

罗杰一开始有 5 个球。他买了 2 罐,每罐 3 个球,所以 2 × 3 = 6 个球。总共是 5 + 6 = 11 个球。答案是 11。

这个简单的改动——让模型先 "自言自语" 走完一遍思路,让模型在小学数学题上的准确率从 ~18% 提升到 ~57%(GPT-3 175B 的实测)。在更难的题上,提升更夸张。

为什么会这样?这是一个比表面看起来更深的问题:

核心解释:每个 token 是一次额外的计算。Transformer 模型的一次 forward pass 计算量是固定的——大约等于它的参数量。这个计算量足以做"对一句话的语义匹配"、"事实回忆"这种相对简单的事,但不足以一步完成一个 7 步的逻辑推理。

但是,当模型生成每一个 token 时,它都做了一次完整的 forward pass。如果让模型生成 100 个推理 token,它就用了 100 次 forward pass 的计算。这相当于把"一次思考"拆成"一百次小思考",每次小思考有上一次的全部成果作为上下文。

换句话说——CoT 是模型的'外置工作记忆'。模型本身没法在一个 forward pass 内做复杂推理,但它能把推理结果一步步写到纸上,把纸当作记忆使用。每一步它只做一点点,但累积下来,可以做到任何长度的多步推理。

这就是寓言里严国手说的:讲话的物理性,逼着思考一步一步走完整。

CoT 的发现有几个深远的影响:

它揭示了 LLM 推理的"本质"——LLM 不是个完整的"会思考的脑",而是一个"逐 token 思考的引擎"。它需要外部的纸张(generated tokens)作为思考的承载。剥夺它的纸张,它就成了直觉机器,只能给出第一感。

它催生了一整套 prompting 技术:

Zero-shot CoT——直接加一句 "Let's think step by step" 就能触发(Kojima et al. 2022)
Few-shot CoT——给几个分步推理的示例,模型自然会模仿
Self-Consistency——让模型生成多次推理路径,投票选最常见的答案(Wang et al. 2022)
Tree-of-Thoughts——让模型不是线性思考,而是构建推理的树,探索多条路径(Yao et al. 2023)
ReAct——让推理交替进行思考和行动(调用工具),适合 agent
Self-Reflection / Reflexion——让模型反思自己的中间结果

它解释了 reasoning models 的崛起——OpenAI 的 o1(2024)、o3(2025)、Anthropic 的 Extended Thinking(2025)、DeepSeek 的 R1(2025),这些被叫做"推理模型"的新一代 LLM,本质上就是把 CoT 内化、放大、训练——让模型在最终回答前生成几千甚至几万个推理 token,实质上把"思考时间"作为新的扩展维度。

CoT 还揭示了一个更深的事:LLM 的"智能"和"思考时间"是可以解耦的。

传统 AI 模型的能力等于"模型本身的能力"。CoT 出现后,LLM 的实际能力 = 模型本身的能力 × 思考的步数。一个 7B 的小模型,只要让它思考 1000 步,也能解决以前需要 70B 模型才能解决的问题。这是一个计算-智能交换的全新维度。

OpenAI 在 2024 年公开提出 "test-time compute" 的 Scaling Law——模型在 inference 时多花多少计算,性能就能提升多少。这条曲线和 Kaplan 的训练 Scaling Law 同样精确。这是过去两年大模型领域最深刻的工程发现之一。

更深一层——CoT 提出了一个关于 "思考是什么" 的根本问题。

人类的思考,有多大比例是"在脑子里默默想"的,有多大比例是"通过外部介质来思考"的?

研究表明,人类做复杂推理时,几乎没有谁是纯粹"在脑子里"思考的——我们说话、写字、画图、用手指、跟同事讨论、在白板上推演。这些"外化的思考工具"不是辅助,它们是思考本身的载体。

LLM 的 CoT,只是把这件人类一直在做的事情,搬到了模型里。当我们让模型 "think step by step" 时,我们是在让它做人一直在做、却很少被严肃对待的那种思考方式——借助纸张、借助语言、借助外化,把跳跃的直觉拽回到一步步的演绎上来。

也许人也是这样。你的脑子比你以为的小得多;你的真正智慧,藏在你和外部世界互动的那个回路里。

严国手说的那句话,可能是这一切最简洁的总结:

思考是要被说出来,才真的发生的。

在 AI 史的位置

Chain of Thought 由 Jason Wei 等人在 2022 年 1 月 提出(Google Brain),论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 在 NeurIPS 2022 发表。2022 年 5 月 同期 Kojima 等人提出 Zero-shot CoT,把这个技巧简化到一句话。

2022-2023 年 CoT 成了 LLM 工程的基本功——任何稍微复杂的任务都用 CoT prompt。Self-consistency、ToT、ReAct 都建立在 CoT 之上。

2024 年 9 月 OpenAI 发布 o1-preview——第一个把 CoT "训练化"的模型。它在回答前会生成大量 hidden reasoning tokens,在数学、编程、科学题上的水平直接达到博士级。这开启了 "reasoning models" 这一新品类。

2025 年起,几乎所有顶级模型(Claude 3.7 Extended Thinking、Gemini 2.5、DeepSeek-R1、Qwen-QwQ、Grok 3 Reasoning、o3)全部支持或默认启用某种形式的 CoT。"思考时间" 成为新的产品维度——你可以选 "快回答" 或 "深思考",后者贵但解决得了真正的难题。

到了 2026 年,Chain of Thought 已经从一个 prompting 技巧,成长为 LLM 智能的第二根支柱(第一根是模型本身的规模)。Kaplan 在 2020 年画出的那条 Scaling Law 曲线,今天又多了一条平行的曲线——思考时间的 Scaling Law。两条曲线的乘积,是大模型今天能做的所有事的边界。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:19. 会大声自言自语的棋手

本文链接:https://www.sshipanoo.com/blog/ai/ai-fables/19-会大声自言自语的棋手/

本文最后一次更新为天前，文章中的某些内容可能已过时！

19. 会大声自言自语的棋手

把思考说出来,思考才真的发生了

寓言之外

在 AI 史的位置