Deepseek和豆包的技术创新有哪些？

Deepseek和豆包在技术方面都有诸多创新，具体如下：

alankuo · 2025-03-23 05:16:36 发布

Deepseek和豆包在技术方面都有诸多创新，具体如下：

架构创新
- 多头潜在注意力机制（MLA）：通过低秩压缩技术减少Key - Value缓存，提升推理效率。其动态权重分配和稀疏激活机制，实现显存压缩和计算效率提升，优于传统Transformer架构。
- 混合专家模型（MoE）架构：将大模型拆分为多个“专家”，训练时分工协作，推理时按需调用，提高模型性能的同时降低训练成本，为大规模应用奠定基础。还引入“东方智慧架构”，将“天、地、人”三个维度融入模型设计，让机器通过对立统一的思维方式理解世界。
训练策略创新
- 多令牌预测（MTP）训练目标：扩展预测范围，提高数据效率，加速推理过程。
- 强化学习微调（RLHF）：基于规则的奖励建模，避免复杂神经网络奖励模型导致的“奖励投机”，提升模型决策能力。
- 支持FP8低精度训练：通过精细量化策略和高精度累加，降低训练时的GPU内存占用和计算开销，优化训练效率。
性能优化创新
- 无辅助损失的负载均衡策略：动态调整专家偏置，确保专家负载均衡，避免因强制负载均衡导致的模型性能下降。
- 多词元预测系统：在保证质量与单词元预测相当的前提下，一次预测多个词元，提高推理速度。

模型优化：通过海量数据优化及模型架构创新，如提升模型稀疏度、引入强化学习等，使doubao - pro - 1215模型综合能力较之前提升32%，理解精度、生成质量大幅提升，且推理服务价格仅为GPT - 4O的八分之一。
长文本处理：具有300万字窗口的长文本能力，利用string等上下文关联数据算法，提升LLM利用海量外部知识的能力，稀疏化及分布式方案将时延降到十秒级。
图像与视频生成：9月推出的豆包视频生成 - PixelDance、豆包视频生成 - Seaweed两款模型，基于DiT架构，通过高效的DiT融合计算单元，实现多镜头语言能力；全新设计的扩散模型训练方法攻克多镜头切换一致性难题。文生图模型不断迭代，推出通用图像编辑能力。
视觉理解：12月发布的豆包视觉理解模型doubao - vision，可融合视觉与语言多感官深度思考和创作，模型能力在十多个主流数据集上比肩Gemini2.0与GPT - 4O。
高并发支持：默认支持800K的初始TPM（每分钟token数），远超行业平均水平，客户还可根据需求灵活扩容，以满足企业生产环境的高并发流量需求。