02-大模型位置编码详解：大模型怎样理解顺序？

佚名 2026-06-30 09:31:07

注意力机制的"位置盲区"

在上一章中，我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题：

02-大模型位置编码详解：大模型如何理解顺序？

注意力机制天生是"位置不敏感"的！

考虑以下两个句子：

对于注意力机制来说，如果我们交换Token的顺序，计算过程是这样的：

\begin{aligned} 句子1的注意力分数矩阵： \end{aligned}

由于

Q Q

、

K K

、

V V

都是通过相同的权重矩阵

W_{Q} W_Q

、

W_{K} W_K

、

W_{V} W_V

从Embedding计算得到的，如果我们只是交换了Token的顺序，而不告诉模型"位置信息"，那么注意力机制会认为这两个句子是等价的！

具体来说，注意力计算公式：

Attention (Q, K, V) = softmax (\frac{Q \cdot K^{T}}{\sqrt{d_{k}}}) \cdot V text{Attention}(Q, K, V) = text{softmax}left(frac{Q cdot K^T}{sqrt{d_k}}right) cdot V

步骤	传统位置编码	RoPE
1. 输入	$X + PE X + text{PE}$	$X X$ （纯内容）
2. 计算QKV	$Q = (X + PE) \cdot W_{Q} Q = (X + text{PE}) cdot W_Q$	$Q = X \cdot W_{Q} Q = X cdot W_Q$
3. 位置注入	❌（已在步骤1完成）	✅ $Q_{rot} = R_{Θ} (pos) \cdot Q Q_{text{rot}} = R_Theta(text{pos}) cdot Q$
4. 注意力分数	$Q \cdot K^{T} Q cdot K^T$ （位置信息已稀释）	$Q_{rot} \cdot K_{rot}^{T} Q_{text{rot}} cdot K_{text{rot}}^T$ （位置信息精确）
结果	位置信息间接、可能被削弱	位置信息直接、保留相对关系