马斯克发布Grok 3大模型后当天,DeepSeek 就重磅推出 NSA 功能!这是长文本建模的突破性进展,在处理长序列文本起到非常关键的作用,处理长文本、编写长篇故事更强!

近些年来,语言模型被要求处理越来越长的上下文,这种需求暴露了标准注意力机制中的一些固有问题。全注意力的二次复杂度在处理长序列时很快成为瓶颈。内存使用量和计算需求迅速增加,使得多轮对话或复杂推理任务等实际应用面临挑战,虽然稀疏注意力方法有望带来理论上的改进,但难以将这些好处转化为现实世界的加速。
许多挑战源于理论效率与实际实施之间的脱节,在不丢失重要信息的情况下减少计算开销并非易事。这促使研究人员重新思考注意力机制,以便更好地平衡性能和效率。解决这些问题是构建可扩展且有效的关键一步。
DeepSeek  研究人员推出了 NSA,这是一种与硬件一致且可本地训练的稀疏注意力机制,用于超快速长上下文训练和推理,并且NSA 集成了算法创新和与硬件一致的优化,以降低处理长序列的计算成本。NSA 使用动态分层方法,它首先将标记组压缩为汇总表示。然后,它通过计算重要性分数有选择地仅保留最相关的标记。此外,滑动窗口分支可确保保留本地上下文。这种三管齐下的策略(压缩、选择和滑动窗口)创建了一种浓缩表示,同时仍可捕获全局和本地依赖关系。
NSA 的设计也考虑到了硬件限制,通过实施针对现代 GPU 优化的专用内核,NSA 实现了推理和训练的延迟降低。这种算法策略和硬件协调的精心融合使 NSA 成为改进长上下文建模的有希望的候选方案。


技术细节和优势

NSA 的架构基于两个主要支柱:硬件感知设计和易于训练的算法。压缩机制使用可学习的多层感知器将顺序标记聚合为块级表示。这可以捕获高级模式,同时减少对全分辨率处理的需求,压缩后,标记选择模块以块方式运行。
选择具有相似注意力分数的连续标记块,这有助于最大限度地减少随机内存访问,滑动窗口组件负责处理本地上下文,通过分离本地和全局信息。NSA 设法保留了许多任务所必需的细节,在硬件方面,NSA 优化了 GPU 资源的使用,查询以组为单位加载到 SRAM 中,并通过有效共享内存来最大限度地减少冗余键值传输。这些优化可显著提高前向和后向计算的速度,实验结果表明,对于长序列,前向传播速度提高了 9 倍,后向传播速度提高了 6 倍

NSA 的核心组件:

1、动态分层稀疏策略

2、粗粒度标记压缩

3、细粒度的 token 选择

见解

该研究对 NSA 在各种任务中的性能进行了仔细评估,在 MMLU、GSM8K 和 DROP 等基准测试中,NSA 的性能可与传统的全注意力模型相媲美,甚至更好。
一个有趣的观察结果是,NSA 在长达 64k 个标记的序列的“大海捞针”任务中具有很高的检索准确率。这在很大程度上归功于其分层设计,该设计将粗略的全局扫描与详细的局部选择相结合还表明,由于 NSA 的内存访问占用空间减少,其解码速度可以随着序列长度的增加而很好地扩展。
NSA 的平衡方法(结合压缩、选择和滑动窗口处理)提供了一种在不牺牲准确性的情况下有效处理长序列的实用方法。

结论

NSA(Neural Sparse Attention)标志着注意力机制优化领域的重要范式突破。该架构通过深度融合可微分参数学习与硬件感知设计,创新性地构建了面向现代计算集群的稀疏注意力解决方案,成功化解了Transformer模型在长序列处理中面临的计算复杂度与上下文建模效能间的根本矛盾。其核心技术路径体现为三阶段分层架构:首先采用基于信息熵的Token压缩策略实现输入序列的维度约简;继而通过可学习的门控网络实施动态注意力稀疏化,构建数据依赖的局部敏感哈希;最终结合硬件友好的块状滑动窗口机制,在降低计算复杂度至O(N√N)的同时,通过跨窗口残差连接保留全局依赖关系。这种多粒度协同优化框架,在语言建模和基因组分析等长序列任务中展现出超越传统稀疏注意力机制15%-22%的记忆保持能力,且推理速度提升达3.8倍,突破了传统稀疏注意力模型在动态上下文捕捉与硬件适配性方面的双重局限。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐