Deepseek中多头潜在注意力(MLA)的低秩压缩

Deepseek提出了一种创新的注意力机制，名为多头潜在注意力（MLA，Multi-Head Latent Attention），是基于多头自注意力机制（MHA）的优化，能够显著降低内存占用和计算开销，同时保持模型性能。

Mr_wang_user

1008人浏览 · 2025-03-01 11:21:18

Mr_wang_user · 2025-03-01 11:21:18 发布

核心原理：

MLA的核心思想是通过低秩压缩技术将注意力机制中的键（Key）和值（Value）投影到低维的潜在空间：

低秩压缩：多头潜在注意力机制（MLA）将键（Key）和值（Value）通过低秩分解映射到低维潜在空间，减少了需要缓存的键值对数量，从而大幅降低了内存需求。

下面进行详细解释：

低秩压缩

当输入序列 $X$ ，传统的多头注意力机制（MHA），直接使用 $W^K$ 、 $W^V$ 与 $X$ 相乘得到 $K$ 、 $V$ ，然后用于后续计算注意力分数，而多头潜在注意力机制（MLA）则将 $W^K$ 、 $W^V$ 拆解为 $U^KV^K$ 、 $U^VV^V$ 。即
$W^K=U^KV^K$ $W^V=U^VV^V$
然后将 $U^K$ 与 $U^V$ 替换成同一个矩阵 $U$ 。
即：
$W^K=UV^K$ $W^V=UV^V$
从上面的计算公式来看，与传统 MHA 不同的是，MLA将计算键和值分成两步：当输入序列 $X$ 后，先乘以 $U$ 得到压缩后的键值对（ $C$ ，代表含有键和值的信息矩阵，也称潜在向量），即 $X U = C$ ，当后续需要计算注意力分数时，则直接将这个含有键值信息的 $C$ 矩阵分别乘以 $V^K$ 和 $V^V$ 得到解压后的真实的键和值，用于计算之中。
即：
$CV^K=XUV^K=XW^K=K$ $CV^V=XUV^V=XW^V=V$
$C$ 为含有键值信息的潜在向量，其维度要比输入序列 $X$ 低的多，将 $X$ 投影到 $C$ 可显著减少计算键值的缓存：

因为如果预先计算键、值，随后再计算注意力分数，两者的缓存量会随序列 $X$ 长度的增加而显著增大从而限制了更长的上下文输入（序列 $X$ ，也就是输入到大模型中的话）。
而如果 $UV^K、UV^V$ 已经吸收到计算注意力分数之中，计算注意力分数时，就可省去计算出真实的 $K 、 V$ 这一中间值（中间值需要缓存，低秩压缩目的就是为了避免中间值的出现），直接得到最终结果，就可减少缓存。