DeepSeek面试通关｜MLA如何让推理效率飙升200%？

如果你面试中被问到 DeepSeek 的 MLA 注意力，以及它为什么要这样改进？你应该如何回答，才能让面试官眼前一亮，跟其他候选人拉开差距？随着 DeepSeek 在国内外的爆火，相关的面试问题也在校招/社招大模型面试中被越来越多的问到，因此丁师兄专门梳理了关于 DeepSeek 的一些高频面试题，梳理成一个 DeepSeek 面试通关系列。包括：说下 DeepSeek 的 MLA 注意力，它为

耿直学编程

859人浏览 · 2025-02-28 17:08:32

耿直学编程 · 2025-02-28 17:08:32 发布

如果你面试中被问到 DeepSeek 的 MLA 注意力，以及它为什么要这样改进？你应该如何回答，才能让面试官眼前一亮，跟其他候选人拉开差距？

随着 DeepSeek 在国内外的爆火，相关的面试问题也在校招/社招大模型面试中被越来越多的问到，因此丁师兄专门梳理了关于 DeepSeek 的一些高频面试题，梳理成一个 DeepSeek 面试通关系列。

包括：

说下 DeepSeek 的 MLA 注意力，它为啥要这样改进？
DeepSeek 采用了什么分词算法？
DeepSeek 对 MOE 架构做了哪些改进？跟 Mixtral 的 MOE 有啥不同？
DeepSeek-V3 中的 Multi-Token Prediction，到底是在做什么？
很多人都搞不清楚的 DeepSeek-R1 的 GRPO 算法，到底比 PPO 算法好在哪？
DeepSeek-R1 是采用的混合精度训练吗？它具体是如何做的？
DeepSeek 长度外推用的什么方案？具体又是怎么做的？
DeepSeek 是如何做 Expert 的负载均衡的？

希望通过对这些题目的深度拆解，让大家对 DeepSeek 的底层原理有一个更加深入的认识，同时对于正在准备大模型面试的同学，也希望助你们拿下 offer。

这篇文章，我们就先来分析一下 DeepSeek 的 MLA 注意力，以及它为啥要这样改进？我的学员在面试阿里时就被问到过这个问题。

1、面试官心理分析

首先还是来分析一下面试官的心理，面试官问这个问题，它其实主要是想考察几点：

第一，你是否知道 Multi-Head Latent Attention 这个技术，这个当然是前提条件，对吧。
第二，面试官它希望你能详细阐述一下 MLA 的过程，也就是它具体是咋做的。
第三，也是最重要的，MLA 带来了哪些好处，你能否从本质出发，讲清楚这个算法改进的内在动机？

好，那接下来我们就沿着面试官的心理预期，来拆解一下这道题目。

2、面试题解析

首先简单介绍一下 MLA 这个算法的背景，它最早是 DeepSeek-V2 中提出来的，然后在 V3 中继续沿用了。

这个算法其实是多头注意力机制的一个延伸改进版，如图：

可以看到，从最早最朴素的 MHA，到 MQA，到 GQA，再到如今的 MLA，其核心都是为了解决一个重要的问题：减少推理过程中 KV Cache 所占用的显存。

MLA 的核心是：对注意力的键值进行低秩联合压缩，来减少推理过程中的 KV 缓存。这是我们面试中第一个要答出的重点。

好，了解了 MLA 的核心之后，我们再来看下一个问题：它具体是怎么做的？面试中回答这类问题，建议大家先做整体概括，再依次展开，这样思路会更加清晰一些。

所以我们先给面试官整体概括一下：MLA 它是通过对 Q 和 K 进行拆分，一部分维度做压缩，一部分维度做 ROPE 编码。

先来看压缩部分，看这张图，我们先对 K，V 通过一个低秩矩阵 Wc 进行联合压缩、压缩成向量 C，然后再用两个升维矩阵 Wk 和 Wv 进行升维。

后面的操作就跟普通的多头注意力一样了，每个头计算注意力矩阵，然后做加权求和。

此外，论文中也提到，为了降低训练过程中的激活内存，DeepSeek 还对 Q 进行了低秩压缩，对 Q 的压缩方式和 K、V 一致，依然是先降维再升维。

虽然对 Q 的压缩并不能降低 KV Cache，但是可以降低 Q 矩阵计算过程中数据的维度，进而降低推理过程神经元激活所占用的内存量。

然后来看 ROPE 编码部分，大家可以先思考一下，为什么要加这样的操作，我直接在降维后的低秩矩阵 C 上做是否可以呢？

答案是：“否”，因为 RoPE 与低秩 KV 压缩并不兼容。

Deepseek 使用一个 C 来表示包含 K 和 V 信息的低秩张量，再通过线性变换，获得真正去进行 attention 计算的 K 和 V，这样在保存的时候，只需要保存这个 C 即可。

此外，所有的 heads 都共用一个 C，实际中 C 的维度要小于 GQA 的注意力维度，那这样 KV Cache 就只存储所有 heads 中 KV 共性的内容，差异性内容在推理时进行计算，这样的话就大大减少了 KV 缓存。

不过这种方式又会带来另外的影响，那就是计算量的激增，主要增加的计算量会集中在 Wk 和 Wv 与 C 的运算上。

好，那下个问题自然就来了，如何降低运算量呢？deepseek 这里用到了矩阵乘法结合率，也叫矩阵"吸收"。

具体来说，在计算 attention weights 的时候，会进行 q 与 k 转置的乘操作，我们看红框部分。

可以看到，通过矩阵乘法结合率运算，可以将两个矩阵合并成一个大的映射矩阵，这样 Wq 和 Wk 在合并后的矩阵维度可以大量缩减，整体计算量也会下降很多。

对于 V 也是同理，对 Wv 和 Wo 也可以做类似的矩阵“吸收”。

好，如果你这里答出了矩阵吸收，那面试官可能会再继续追问一句：那矩阵吸收有没有什么问题呢？

其实这里最明显的问题，就是位置编码。Q 和 K 是需要增加位置编码的，而增加位置编码后，是无法进行矩阵变换操作的，看公式：

可以发现，增加 RoPE 位置编码后存在了相对位置依赖，这个位置依赖在实际进行计算时是不固定的。

因此 MLA 才有了 ROPE 的部分，MLA 选择了一部分维度添加位置嵌入，另外一部分不添加位置嵌入，在 V3 中不做 ROPE 的维度是 128，做 ROPE 的维度是 64，也就是说，针对 1/3 的维度做了位置编码。

到这里我们解决了面试官的第二个心理预期：MLA 的基本流程，现在来回答最后一个问题，MLA 到底带来了哪些好处？

这个问题相当于是对之前的回答做一个总结和延伸。总体来说，MLA 的设计除了大幅度降低 KV Cache 之外，还有一个重要的好处，那就是它可以把 LLM 解码过程的访存密集型，转换为计算密集型的操作。

MLA 在 Decode 计算时类似 MQA，计算强度正比于 Head 数，也就是 128，这已经是一个很高的计算强度了。

如果考虑 KV 共享 latent state ，我们还可以实现一个特别优化的类，例如 flash attention kernel ，甚至可以将计算强度拉到 256。

这就意味着即便是在跑 auto regression 的 decode 阶段， MLA 也是计算密集型的，而不像现在其它模型架构的访存密集型，这就能够充分发挥 GPU 的算力。

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？老师啊，我自学没有方向怎么办？老师，这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！当然这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！