项目 14：频率的炼金术：RoPE Scaling 与长度外推（Extrapolation）

旋转位置编码（Rotary Positional Embedding, RoPE）是现代 LLM（如 Llama、Qwen、Mistral）的基石。与传统的绝对位置编码（将 ID 直接加到 Embedding 上）不同，RoPE 通过旋转变换将位置信息注入。

其核心数学思想是将隐藏层两两成对，视为复平面上的坐标。对于位置 $m$ 的 Token，其对应的旋转矩阵为： $f(x, m) = x \cdot e^{im\theta}$ 其中 $\theta$ 是预定义的频率序列。这种设计的精妙之处在于：

假设一个模型在 4096 窗口下训练。当输入第 4097 个 Token 时，其位置 ID 产生的旋转角度超出了模型在训练期间见过的所有范围。

为了让 4K 模型支持 8K，最直接的想法是将位置 ID $m$ 缩小一倍，即 $m' = m / 2$。

逻辑：将 0-8000 的位置压入 0-4000 的表示空间。
缺陷：
1. 精度损失：原本相邻的两个 Token 现在靠得太近，模型难以分辨它们的相对顺序。
2. 高频分量退化：位置编码中的高频信号被抹平，这直接导致模型在处理细节逻辑（如代码括号匹配）时能力断崖式下降。

为了解决线性插值的精度损失，研究者引入了神经切向核（NTK）理论。

核心思路：不要均匀地压缩所有维度。
- 对于低频维度（代表长距离信息），我们进行插值，因为它们比较鲁棒。
- 对于高频维度（代表短距离细节），我们尽量不插值或少插值，以保留分辨率。
数学实现：通过修改 RoPE 的 Base 常量（默认 10000）。当窗口扩大 $s$ 倍时，我们将 Base 调整为 $10000 \cdot s^{\frac{d}{d-2}}$。这巧妙地实现了不同维度的差异化缩放，显著提升了外推后的 Perplexity。

NTK 虽然强大，但在极长上下文（如 128K）下依然会产生严重的注意力流失。

YaRN 引入了温度修正因子和频谱分段。它根据维度所代表的频率快慢，将维度分为三类：不插值区、过渡区和全插值区。这使得模型在不经过大规模微调的情况下，就能在外推长度上保持极高的准确度。

在推理时根据当前实际输入的长度动态计算 Base。

在本项目中，你需要通过代码复现以下数学过程：

RoPE Scaling 的进化史，本质上是人类对神经网络“如何感知空间频率”的理解加深过程。从粗暴的线性缩放，到精细的频谱对齐，再到 YaRN 的分段治理，我们正在用信号处理的思维去重塑大规模语言模型的认知边界。

理解了项目 14，你才能明白为什么有些模型在扩展到 1M 上下文后依然能保持代码能力的精准，而有些模型则变成了“复读机”。这是 LLM 工程中最具数学美感的领域之一。

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题:项目 14：频率的炼金术：RoPE Scaling 与长度外推（Extrapolation）

本文最后一次更新为天前，文章中的某些内容可能已过时！

在复平面上旋转：理解 LLM 如何感知距离