从 O(L^2) 到 O(L):序列建模的数学涅槃
后 Transformer 时代:为什么我们需要另一种序列模型?
Transformer 统治了 NLP 领域近七年,其核心功臣是自注意力机制(Self-Attention)。然而,正如我们在项目 13 中讨论的,自注意力的 $O(L^2)$ 复杂度是长上下文处理的“物理天花板”。为了解决这一问题,学术界一直在寻找一种具备 Transformer 的并行训练能力,同时具备传统 RNN 的线性推理速度的模型。
项目 19 聚焦于这场“序列建模的文艺复兴”:以 Mamba 为代表的状态空间模型(State Space Models, SSM)和以线性注意力(Linear Attention)为代表的改良派。
第一阶段:状态空间模型(SSM)的数学根源
SSM 起源于控制理论。其基本思想是:通过一个隐藏状态 $h(t)$ 来描述系统随时间的变化。 数学表达为一对连续的微分方程:
- 状态演化:$h'(t) = A h(t) + B x(t)$
- 输出映射:$y(t) = C h(t) + D x(t)$
在深度学习中,为了在数字设备上运行,我们需要对其进行离散化(Discretization)。通过步长参数 $\Delta$,将连续的 $A, B$ 转换为离散的 $\bar{A}, \bar{B}$。
核心魔法:递归与卷积的对偶性
- 推理时(递归模式):模型表现得像一个 RNN。为了生成下一个状态,只需要当前状态和当前输入。这意味着推理时的显存占用是常数级别的,$O(1)$ 的 KV Cache 压力。
- 训练时(卷积模式):如果参数 $A, B, C$ 是时间不变的(Time-invariant),整个计算过程可以展开为一个巨大的卷积。由于卷积在 GPU 上有极其成熟的 FFT 加速方案,这使得模型可以像 Transformer 一样实现并行训练。
第二阶段:Mamba 的创新——选择性状态空间(Selective SSM)
传统的 SSM(如 S4)虽然快,但在理解力上不如 Transformer。主要原因是它的参数对所有输入都是“一视同仁”的。
Mamba 引入了 “选择性” 机制:让参数 $B, C, \Delta$ 成为输入 $x$ 的函数。
- 数学意义:模型学会了根据输入内容来决定“记住什么”和“遗忘什么”。例如,在处理一段话时,模型可以主动调大针对关键词的步长,或者重置针对噪声信息的隐藏状态。
- 结果:Mamba 在多项任务中展现出了比肩甚至超越 Transformer 的表现,同时保持了完全的线性缩放能力。
第三阶段:线性注意力(Linear Attention)的改良
另一条路径是直接修改自注意力的公式。 自注意力公式:$Softmax(QK^T)V$。 由于 $Softmax$ 的存在,我们必须先计算 $QK^T$(产生 $L \times L$ 矩阵)。
线性注意力通过核函数(Kernel Function)特征映射 $\phi$,尝试改变计算顺序: $Attention \approx (\phi(Q) \cdot \phi(K)^T)V = \phi(Q) \cdot (\phi(K)^T V)$ 利用矩阵乘法的结合律,如果我们先计算 $\phi(K)^T V$,得到的是一个维度为 $d \times d$ 的矩阵(与序列长度 $L$ 无关)。
- 本质:这实际上是将注意力机制转化为了一个具有无限容量的线性 RNN。
第四阶段:RNN 与 Transformer 的终局博弈
在本项目中,你需要从以下维度进行深度思考与实验:
-
精确回看能力(Recall Gap): 尝试让模型复现一段随机生成的长字符串。你会发现 Transformer 几乎可以 100% 还原(因为它能回看每一个历史 Token),而 SSM 往往会出现细节丢失。这是因为 SSM 的隐藏状态是一个“有损压缩”的过程。
-
推理显存曲线: 对比 Transformer 与 Mamba 在上下文从 1K 增加到 100K 时的显存占用。你会观察到 Mamba 的显存占用几乎是一条水平线。
-
关联性实验: 改变输入序列的顺序。由于 SSM 具有方向性(从左到右),观察它在逆向推理任务中的表现。
总结
项目 19 并不是要宣告 Transformer 的终结,而是要让我们理解序列建模的另一种可能性。SSM 和线性注意力代表了对**“极致压缩”**的追求。在万物互联、终端部署和超长文本分析的未来,这种线性复杂度的架构可能才是真正的终局方案。
版权声明: 如无特别声明,本文版权归 sshipanoo 所有,转载请注明本文链接。
(采用 CC BY-NC-SA 4.0 许可协议进行授权)
本文标题:项目 19:线性序列的回归:状态空间模型(SSM)与线性注意力
本文链接:https://www.sshipanoo.com/blog/ai/llm-roadmap/lab-19-ssm-mamba/
本文最后一次更新为 天前,文章中的某些内容可能已过时!