DeepSeekv3强势来势，低成本暴打chatGPT-4o

DeepSeek 是由中国人工智能公司深度求索（DeepSeek）独立开发的大语言模型系列。最近推出DeepSeek-v3在性能测试上超过一众开源模型、与chatGPT-4o等闭源大模型相当，然而DeepSeek-v3的训练成本与训练时间远低于传统大模型，一经推出就引发AI圈的热议。深度求索（DeepSeek）是一家专注于人工智能（AI）大模型研发的创新科技公司，成立于2023年7月17日，总部位

DThruster

3635人浏览 · 2025-01-03 14:45:38

DThruster · 2025-01-03 14:45:38 发布

DeepSeek官网：DeepSeek

背景介绍

DeepSeek 是由中国人工智能公司深度求索（DeepSeek）独立开发的大语言模型系列。最近推出DeepSeek-v3在性能测试上超过一众开源模型、与chatGPT-4o等闭源大模型相当，然而DeepSeek-v3的训练成本与训练时间远低于传统大模型，一经推出就引发AI圈的热议。

深度求索（DeepSeek）是一家专注于人工智能（AI）大模型研发的创新科技公司，成立于2023年7月17日，总部位于中国浙江省杭州市。DeepSeek的创始团队具有深厚的技术背景，并在量化交易领域积累了丰富的经验。该公司由知名量化资管巨头幻方量化创立，并依托其强大的技术团队和硬件资源，迅速在AI领域崭露头角。幻方量化作为DeepSeek的母公司，为其提供了强大的硬件支持，包括万张A100芯片的储备，这使得DeepSeek在AI硬件部署上处于行业领先地位。由于美国的制裁，国内公司无法获取先进GPU进行大模型训练，转向采用别的方式去训练大模型，DeepSeek的MoE架构就是其中的一种。

DeepSeek的优势

DeepSeek-V3 是 DeepSeek 系列的最新版本，于 2024 年 12 月 26 日发布。其核心性能与优势如下：

参数规模与架构：DeepSeek-V3 采用混合专家（MoE）架构，总参数达 6710 亿（目前最大的开源模型），每个 token 仅激活 370 亿参数（推理速度会很快），实现了高效的资源利用。

训练成本与效率：训练成本仅为 557 万美元，远低于 GPT-4 等模型的 1 亿美元（相当于1/20），同时训练计算量仅为 280 万 GPU 小时，显著提升了效率。
性能表现：在多项基准测试中，DeepSeek-V3 超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，并在代码生成、数学推理、中文理解等方面与 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型相当。

生成速度：生成速度从 20 TPS 提升至 60 TPS，为用户提供了更流畅的使用体验。

TPS（Tokens Per Second，每秒处理的 token 数量）

定义：TPS 是衡量大语言模型生成速度的指标，表示模型每秒能够生成多少个 token（即单词或子词单元）。

意义：TPS 越高，模型的响应速度越快，用户体验越流畅。例如，DeepSeek-V3 的 TPS 从 20 提升到 60，意味着其生成速度显著提高。

影响因素：模型架构、硬件性能、优化技术（如并行计算、量化）等都会影响 TPS。

多语言与多模态能力：支持多语言处理，并在中文任务中表现尤为突出，同时在视觉语言处理和多模态推理方面展现了卓越的能力。

低成本训练的方法

DeepSeek 取得显著成绩的关键在于其创新的技术方法和高效的资源利用策略：

混合专家架构（MoE）：通过动态选择专家模块，显著降低了计算资源需求，同时保持了高性能。（将大模型的参数分模块进行专家化训练，类似于大脑的分区处理专项任务的功能）
无辅助损失负载均衡：创新性地实现了负载均衡，避免了传统方法中因辅助损失导致的性能下降。

无辅助损失负载均衡（Auxiliary Loss-Free Load Balancing）

定义：在 MoE 架构中，负载均衡是指确保各个专家模块的计算负载均匀分配。传统方法通过引入辅助损失函数来实现负载均衡，但这种方式可能导致性能下降。无辅助损失负载均衡则通过创新技术实现均衡，无需引入额外的损失函数。

优势：

避免性能损失：无需辅助损失函数，保持模型性能。

高效均衡：通过动态调整专家模块的激活策略，实现负载均衡。

多 token 预测（MTP）：MTP（多Token预测）是一种训练技术，它让模型在预测下一个Token的同时，尝试预测后续多个Token，仿佛一次望见未来的多个步骤。这种并行预测不仅提升了模型对上下文关系的理解，提高了生成质量，还通过减少生成过程中的迭代次数，加速了文本生成，使模型更加高效。
FP8 混合精度训练：FP8混合精度训练以8位浮点数进行计算，大幅降低内存和计算需求，如同在高精度与低资源之间找到了完美的平衡点。这种方法在保持模型精度的同时，显著提升了训练效率，使复杂模型的训练更加轻盈迅捷。
分布式训练优化：采用 DualPipe 流水线并行策略和高效的跨节点通信技术，最大限度地提高了硬件利用率。