项目 19：线性序列的回归：状态空间模型（SSM）与线性注意力

后 Transformer 时代：为什么我们需要另一种序列模型？

Transformer 统治了 NLP 领域近七年，其核心功臣是自注意力机制（Self-Attention）。然而，正如我们在项目 13 中讨论的，自注意力的 $O(L^2)$ 复杂度是长上下文处理的“物理天花板”。为了解决这一问题，学术界一直在寻找一种具备 Transformer 的并行训练能力，同时具备传统 RNN 的线性推理速度的模型。

项目 19 聚焦于这场“序列建模的文艺复兴”：以 Mamba 为代表的状态空间模型（State Space Models, SSM）和以线性注意力（Linear Attention）为代表的改良派。

第一阶段：状态空间模型（SSM）的数学根源

SSM 起源于控制理论。其基本思想是：通过一个隐藏状态 $h(t)$ 来描述系统随时间的变化。数学表达为一对连续的微分方程：

状态演化：$h'(t) = A h(t) + B x(t)$
输出映射：$y(t) = C h(t) + D x(t)$

在深度学习中，为了在数字设备上运行，我们需要对其进行离散化（Discretization）。通过步长参数 $\Delta$，将连续的 $A, B$ 转换为离散的 $\bar{A}, \bar{B}$。

核心魔法：递归与卷积的对偶性

推理时（递归模式）：模型表现得像一个 RNN。为了生成下一个状态，只需要当前状态和当前输入。这意味着推理时的显存占用是常数级别的，$O(1)$ 的 KV Cache 压力。
训练时（卷积模式）：如果参数 $A, B, C$ 是时间不变的（Time-invariant），整个计算过程可以展开为一个巨大的卷积。由于卷积在 GPU 上有极其成熟的 FFT 加速方案，这使得模型可以像 Transformer 一样实现并行训练。

第二阶段：Mamba 的创新——选择性状态空间（Selective SSM）

传统的 SSM（如 S4）虽然快，但在理解力上不如 Transformer。主要原因是它的参数对所有输入都是“一视同仁”的。

Mamba 引入了 “选择性” 机制：让参数 $B, C, \Delta$ 成为输入 $x$ 的函数。

数学意义：模型学会了根据输入内容来决定“记住什么”和“遗忘什么”。例如，在处理一段话时，模型可以主动调大针对关键词的步长，或者重置针对噪声信息的隐藏状态。
结果：Mamba 在多项任务中展现出了比肩甚至超越 Transformer 的表现，同时保持了完全的线性缩放能力。

第三阶段：线性注意力（Linear Attention）的改良

另一条路径是直接修改自注意力的公式。自注意力公式：$Softmax(QK^T)V$。由于 $Softmax$ 的存在，我们必须先计算 $QK^T$（产生 $L \times L$ 矩阵）。

线性注意力通过核函数（Kernel Function）特征映射 $\phi$，尝试改变计算顺序： $Attention \approx (\phi(Q) \cdot \phi(K)^T)V = \phi(Q) \cdot (\phi(K)^T V)$ 利用矩阵乘法的结合律，如果我们先计算 $\phi(K)^T V$，得到的是一个维度为 $d \times d$ 的矩阵（与序列长度 $L$ 无关）。

本质：这实际上是将注意力机制转化为了一个具有无限容量的线性 RNN。

第四阶段：RNN 与 Transformer 的终局博弈

在本项目中，你需要从以下维度进行深度思考与实验：

精确回看能力（Recall Gap）：尝试让模型复现一段随机生成的长字符串。你会发现 Transformer 几乎可以 100% 还原（因为它能回看每一个历史 Token），而 SSM 往往会出现细节丢失。这是因为 SSM 的隐藏状态是一个“有损压缩”的过程。
推理显存曲线：对比 Transformer 与 Mamba 在上下文从 1K 增加到 100K 时的显存占用。你会观察到 Mamba 的显存占用几乎是一条水平线。
关联性实验：改变输入序列的顺序。由于 SSM 具有方向性（从左到右），观察它在逆向推理任务中的表现。

总结

项目 19 并不是要宣告 Transformer 的终结，而是要让我们理解序列建模的另一种可能性。SSM 和线性注意力代表了对**“极致压缩”**的追求。在万物互联、终端部署和超长文本分析的未来，这种线性复杂度的架构可能才是真正的终局方案。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 19：线性序列的回归：状态空间模型（SSM）与线性注意力

本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-19-ssm-mamba/

本文最后一次更新为天前，文章中的某些内容可能已过时！