大模型评测【DeepSeek】｜最新的DeepSeek-v3-0324相比旧版本提升了多少？哪方面提升最多？

DeepSeek-v3-0324总分提高了15%，算是稳步提升。而在法律和行政公务领域却有超出预期的巨幅改进，涨幅分别高达55%、41%。相比之下，在金融领域却只有3%的微小提升。

easyllm

865人浏览 · 2025-04-09 13:59:10

easyllm · 2025-04-09 13:59:10 发布

DeepSeek-v3首发于2024年12月底，而最新版本发布于3月24日，即DeepSeek-v3-0324。官方也给出了在主流英文评测集上的前后效果对比，如下：

Model Performance

那么在中文上的效果提升多少呢？我们基于8大领域（300多个细分维度）的中文评测给出回答：

统计	deepseek-v3	deepseek-v3-0324	变化
总分	66.99	77.37	+15%
医疗	71.21	78.05	+10%
教育	77.04	85.46	+11%
金融	73.68	76.11	+3%
法律	39.57	61.50	+55%
行政公务	58.00	81.50	+41%
心理健康	56.00	64.62	+15%
推理与数学计算	81.08	86.25	+6%
语言与指令遵从	79.31	85.43	+8%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知：

DeepSeek-v3-0324总分提高了15%，算是稳步提升。
而在法律和行政公务领域却有超出预期的巨幅改进，涨幅分别高达55%、41%。
相比之下，在金融领域却只有3%的微小提升。

关于大模型评测EasyLLM：https://easyllm.site

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度
最新——每周更新大模型排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯
错题本——百万级大模型错题本
免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

华为云Flexus+DeepSeek征文 | MaaS平台避坑指南：DeepSeek商用服务开通与成本控制

DeepSeek技术社区

cover

一文讲清楚大模型中6个关键词及原理：LLM、Transformer、Bert、预训练、微调FineTuning、机器学习

DeepSeek技术社区

cover

基于vLLM+DeepSeek本地部署大模型，全网最详细的方案！

DeepSeek技术社区

所有评论(0)

查看更多评论

easyllm

已为社区贡献19条内容