Deepseek所有论文网址及概括

Deepseek所有论文网址及概括

一只贴代码君

942人浏览 · 2025-03-01 21:59:34

一只贴代码君 · 2025-03-01 21:59:34 发布

1. DeepSeek-MoE: 专家混合模型的专业化突破

论文链接：arXiv:2404.14388
概括：
提出了DeepSeek-MoE模型，通过细粒度专家分割（细分为64个子专家）和共享专家隔离机制，显著提升了MoE（Mixture of Experts）模型的参数效率和性能。模型在同等计算资源下，性能接近DeepSeek 7B，但训练成本降低至1/6。

2. DeepSeek-R1: 长上下文窗口的稀疏注意力优化

论文链接：arXiv:2405.04431
概括：
提出了一种针对长文本处理的稀疏注意力机制，通过动态调整稀疏模式，使模型在处理超过400万token的上下文时保持高效。实验表明，DeepSeek-R1在长文本任务（如代码补全、数学推理）上表现优异。

3. DeepSeek-V2: 高效多模态模型架构

论文链接：官方技术报告
概括：
介绍了DeepSeek-V2的多模态架构，结合MoE和动态路由技术，在图像理解、视频分析等任务中实现高效推理。模型支持多模态输入，并在多项基准测试中达到SOTA水平。

4. DeepSeek-LLM: 开源大语言模型系列

论文链接：arXiv:2402.02964
概括：
开源了DeepSeek 7B/67B系列模型，覆盖数学推理、代码生成等能力。通过强化数据质量和训练策略优化，模型在多个中英文评测基准上超越同规模开源模型。

其他资源

官方渠道：
- 论文更新：DeepSeek Research
- GitHub仓库：DeepSeek AI（含技术报告和模型代码）
学术平台：
建议通过arXiv或Google Scholar搜索“DeepSeek”或具体模型名称，获取最新论文。

如需更完整的论文列表，可访问其官网或关注学术平台更新。部分研究可能尚未公开，建议持续跟踪官方动态。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

【华为开发者空间 x DeepSeek】基于华为开发者空间云主机DeepSeek助力电商企业AI海报文案驱动的最佳实践落地

DeepSeek技术社区

cover

【实战利器】大模型开源项目全盘点！超详细，一定记得收藏！

DeepSeek技术社区

【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！

【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！

DeepSeek技术社区

所有评论(0)

查看更多评论

一只贴代码君

@yaosichengalpha

已为社区贡献6条内容