
Deepseek所有论文网址及概括
Deepseek所有论文网址及概括
·
1. DeepSeek-MoE: 专家混合模型的专业化突破
- 论文链接:arXiv:2404.14388
- 概括:
提出了DeepSeek-MoE模型,通过细粒度专家分割(细分为64个子专家)和共享专家隔离机制,显著提升了MoE(Mixture of Experts)模型的参数效率和性能。模型在同等计算资源下,性能接近DeepSeek 7B,但训练成本降低至1/6。
2. DeepSeek-R1: 长上下文窗口的稀疏注意力优化
- 论文链接:arXiv:2405.04431
- 概括:
提出了一种针对长文本处理的稀疏注意力机制,通过动态调整稀疏模式,使模型在处理超过400万token的上下文时保持高效。实验表明,DeepSeek-R1在长文本任务(如代码补全、数学推理)上表现优异。
3. DeepSeek-V2: 高效多模态模型架构
- 论文链接:官方技术报告
- 概括:
介绍了DeepSeek-V2的多模态架构,结合MoE和动态路由技术,在图像理解、视频分析等任务中实现高效推理。模型支持多模态输入,并在多项基准测试中达到SOTA水平。
4. DeepSeek-LLM: 开源大语言模型系列
- 论文链接:arXiv:2402.02964
- 概括:
开源了DeepSeek 7B/67B系列模型,覆盖数学推理、代码生成等能力。通过强化数据质量和训练策略优化,模型在多个中英文评测基准上超越同规模开源模型。
其他资源
- 官方渠道:
- 论文更新:DeepSeek Research
- GitHub仓库:DeepSeek AI(含技术报告和模型代码)
- 学术平台:
建议通过arXiv或Google Scholar搜索“DeepSeek”或具体模型名称,获取最新论文。
如需更完整的论文列表,可访问其官网或关注学术平台更新。部分研究可能尚未公开,建议持续跟踪官方动态。
更多推荐
所有评论(0)