Deepseek和豆包的技术创新有哪些?
Deepseek和豆包在技术方面都有诸多创新,具体如下:
·
Deepseek和豆包在技术方面都有诸多创新,具体如下:
Deepseek
- 架构创新
- 多头潜在注意力机制(MLA):通过低秩压缩技术减少Key - Value缓存,提升推理效率。其动态权重分配和稀疏激活机制,实现显存压缩和计算效率提升,优于传统Transformer架构。
- 混合专家模型(MoE)架构:将大模型拆分为多个“专家”,训练时分工协作,推理时按需调用,提高模型性能的同时降低训练成本,为大规模应用奠定基础。还引入“东方智慧架构”,将“天、地、人”三个维度融入模型设计,让机器通过对立统一的思维方式理解世界。
- 训练策略创新
- 多令牌预测(MTP)训练目标:扩展预测范围,提高数据效率,加速推理过程。
- 强化学习微调(RLHF):基于规则的奖励建模,避免复杂神经网络奖励模型导致的“奖励投机”,提升模型决策能力。
- 支持FP8低精度训练:通过精细量化策略和高精度累加,降低训练时的GPU内存占用和计算开销,优化训练效率。
- 性能优化创新
- 无辅助损失的负载均衡策略:动态调整专家偏置,确保专家负载均衡,避免因强制负载均衡导致的模型性能下降。
- 多词元预测系统:在保证质量与单词元预测相当的前提下,一次预测多个词元,提高推理速度。
豆包
- 模型优化:通过海量数据优化及模型架构创新,如提升模型稀疏度、引入强化学习等,使doubao - pro - 1215模型综合能力较之前提升32%,理解精度、生成质量大幅提升,且推理服务价格仅为GPT - 4O的八分之一。
- 长文本处理:具有300万字窗口的长文本能力,利用string等上下文关联数据算法,提升LLM利用海量外部知识的能力,稀疏化及分布式方案将时延降到十秒级。
- 图像与视频生成:9月推出的豆包视频生成 - PixelDance、豆包视频生成 - Seaweed两款模型,基于DiT架构,通过高效的DiT融合计算单元,实现多镜头语言能力;全新设计的扩散模型训练方法攻克多镜头切换一致性难题。文生图模型不断迭代,推出通用图像编辑能力。
- 视觉理解:12月发布的豆包视觉理解模型doubao - vision,可融合视觉与语言多感官深度思考和创作,模型能力在十多个主流数据集上比肩Gemini2.0与GPT - 4O。
- 高并发支持:默认支持800K的初始TPM(每分钟token数),远超行业平均水平,客户还可根据需求灵活扩容,以满足企业生产环境的高并发流量需求。
更多推荐



所有评论(0)