1. DeepSeek-MoE: 专家混合模型的专业化突破

  • 论文链接arXiv:2404.14388
  • 概括
    提出了DeepSeek-MoE模型,通过细粒度专家分割(细分为64个子专家)和共享专家隔离机制,显著提升了MoE(Mixture of Experts)模型的参数效率和性能。模型在同等计算资源下,性能接近DeepSeek 7B,但训练成本降低至1/6。

2. DeepSeek-R1: 长上下文窗口的稀疏注意力优化

  • 论文链接arXiv:2405.04431
  • 概括
    提出了一种针对长文本处理的稀疏注意力机制,通过动态调整稀疏模式,使模型在处理超过400万token的上下文时保持高效。实验表明,DeepSeek-R1在长文本任务(如代码补全、数学推理)上表现优异。

3. DeepSeek-V2: 高效多模态模型架构

  • 论文链接官方技术报告
  • 概括
    介绍了DeepSeek-V2的多模态架构,结合MoE和动态路由技术,在图像理解、视频分析等任务中实现高效推理。模型支持多模态输入,并在多项基准测试中达到SOTA水平。

4. DeepSeek-LLM: 开源大语言模型系列

  • 论文链接arXiv:2402.02964
  • 概括
    开源了DeepSeek 7B/67B系列模型,覆盖数学推理、代码生成等能力。通过强化数据质量和训练策略优化,模型在多个中英文评测基准上超越同规模开源模型。

其他资源

  • 官方渠道
  • 学术平台
    建议通过arXiv或Google Scholar搜索“DeepSeek”或具体模型名称,获取最新论文。

如需更完整的论文列表,可访问其官网或关注学术平台更新。部分研究可能尚未公开,建议持续跟踪官方动态。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐