Deepseek V3-0324版本的评测来啦

Deepseek V3-0324可能是目前最好的非推理模型，而且还是免费的。综合能力与sonnet 3.5不分伯仲。

fu1766731950

806人浏览 · 2025-03-25 16:56:15

fu1766731950 · 2025-03-25 16:56:15 发布

开始

没有一点点防备，也没有一丝的顾虑，他就这样悄悄的上线啦。

有多低调，看下面图片，readme竟然都是空的。好歹宣传一下呀，哈哈

有哪些更新

官方给出答复是小的版本更新，没有基准测评和技术报告。

社区反馈，代码能力有明显的提升，还具备一定的推理能力。输出速度更快。能够迅速处理数学和编程任务。它也非常稳定，无论是编程还是解决问题，每次都能给出良好的结果。

对比表现

可以看下面的编程实现对比，DeepSeek V3-0324 的表现优于 o3-mini 和 Deepseek R1

V3-0324对比

第三方评测

结论

Deepseek V3-0324可能是目前最好的非推理模型，而且还是免费的。综合能力与sonnet 3.5不分伯仲。

评测逻辑

每个柱体有3个颜色，代表是三种评测逻辑，具体含义如下：

这张图片的右上角有三个图例，分别代表以下含义：

1. **Pass@5**

含义：Pass@5 表示模型在测试中前五个结果中有多少是正确的。

用途：这一指标通常用于评估模型的准确率，特别是在生成任务或多选任务中。它反映了模型在有限尝试次数内提供正确答案的能力。

如果 Pass@5 为 80%，意味着模型在前五个结果中，有 80% 的概率至少包含一个正确答案。

2. **Average Score**

含义：Average Score 表示模型在所有测试中的平均得分。

用途：这一指标反映了模型的整体性能，综合了模型在不同任务或测试中的表现。

如果 Average Score 为 60%，意味着模型在所有测试中的平均得分为 60%。

3. **5/5 Consistency**

含义：5/5 Consistency 是一个衡量模型在多次面对相同或非常相似的输入时，能否给出一致性回答的指标。更具体地说，它通常表示在五次独立的测试中，模型都给出了相同或高度相似的答案。

用途：这一指标反映了模型的一致性和稳定性，评估模型是否能够在所有测试中保持高水平的表现。

如果 5/5 Consistency 为 40%，意味着模型在所有测试中，有 40% 的概率能够做到输出一致。

指标解读

通用语言模型中，Deepseek V3-0324版本在top 5测评的准确率居首。平均得分与sonnet 3.5不相上下。5对5一致性评测中，弱于sonnet 3.5。相比之前的V3版本，三个指标都有提升。

哪里可以使用

官方网页版: 在deepseek.com上免费测试更新后的V3版本，记得关闭“深度思考”按钮。

官方 App: 可在iOS和Android上下载，已更新至3月24日发布的版本。

官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。

HuggingFace: 从HuggingFace下载“DeepSeek V3 0324”权重模型。

持续分享一线的AI情报，看屏幕左上角我的头像，或者🔍：ai_service

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

【华为开发者空间 x DeepSeek】基于华为开发者空间云主机DeepSeek助力电商企业AI海报文案驱动的最佳实践落地

DeepSeek技术社区

【实战利器】大模型开源项目全盘点！超详细，一定记得收藏！

DeepSeek技术社区

【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！

DeepSeek技术社区

所有评论(0)

查看更多评论

fu1766731950

@fu1766731950

已为社区贡献7条内容