
【大模型】Deepseek V3-0324
2025年3月24号,也就是周一,Deepseek突然发布他们 DeepSeek V3 的新版本模型 DeepSeek-V3-0324。目前还有技术报告只有一个news和模型,不过从效果上来看也是很炸裂的,对标都是最新的闭源模型的前排选手。主要改进点有:推理性能大幅提升,更强的前端开发技能,以及更智能的工具使用能力。我们一起来看看吧。
Deepseek V3 0324
- 论文: 无
- 模型:
- https://huggingface.co/deepseek-ai/DeepSeek-V3-0324 (huggingface)
- https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324 (modelscope)
- https://modelscope.cn/models/mlx-community/DeepSeek-V3-0324-4bit (苹果芯片 4bit 版)
- https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF (unsloth 不同量化精度)
- 官网: https://chat.deepseek.com/
- news: https://api-docs.deepseek.com/news/news250325
2025年3月24号,也就是周一,Deepseek突然发布他们 DeepSeek V3 的新版本模型 DeepSeek-V3-0324。目前还有技术报告只有一个news和模型,不过从效果上来看也是很炸裂的,对标都是最新的闭源模型的前排选手。主要改进点有:推理性能大幅提升,更强的前端开发技能,以及更智能的工具使用能力。我们一起来看看吧。
一、模型对比
1.综合对比
上图中,不同模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5、Claude-Sonnet-3.7)在多个评测任务中的准确率(Accuracy/Percentile)表现,横轴为具体评测任务,纵轴为准确率百分比。
- MMLU-Pro:衡量模型在 多领域知识理解 任务中的精确匹配能力。
- GPQA Diamond:评估模型在 专业问答 任务中一次生成正确答案的能力。
- MATH-500:测试模型解决 数学问题 的能力,关注一次生成正确解的概率。
- AIME 2024:针对 AIME数学竞赛 题目,考察模型解题准确率。
- LiveCodeBench:评估模型在 编程编码 任务中一次生成可用代码的能力。
1.1 模型表现(纵轴及图例)
- DeepSeek-V3-0324(蓝斜线):重点关注对象,在多个任务中表现突出。例如:
- MATH-500 任务中准确率达 94.0%,显著领先其他模型;
- MMLU-Pro 任务中准确率 81.2%,高于多数对比模型。
- 其他模型:如 GPT-4.5 在 MMLU-Pro 中达 86.1%,但在 MATH-500 中落后于 DeepSeek-V3-0324。
图表直观呈现了 DeepSeek-V3-0324 在数学(MATH-500、AIME 2024)、知识理解(MMLU-Pro)等任务中的领先性能,体现其在复杂任务处理上的优势,同时对比展示了其他模型的表现差异。
2.编程能力对比
图表的对应代码仓库为 github.com/KCORES/kcores-llm-arena。
上图表展示了不同大语言模型(LLM)在 KCORES LLM Arena 真实世界编码基准测试中的表现,具体解读如下:
- 横轴:不同大语言模型名称,如
DeepSeek-V3-0324
、Claude-3.7-Sonnet
、GPT-4.0
、Groq-3
等。 - 纵轴:归一化分数(Normalized Score),范围 0–400,分数越高代表模型在编码任务中表现越好。
- 颜色分区:每个模型柱由 4 种颜色叠加,代表不同编码任务:
solar-system
(浅紫色):可能涉及太阳系天体运动模拟、轨道计算等编程任务,考验模型对物理规律建模、代码逻辑实现的能力。mars-mission
(紫色):聚焦火星任务相关编程,如火星车路径规划、通信协议实现、太空任务逻辑编码等。mandelbrot-set-meet-libai
(深紫色):围绕分形图形(曼德博集合)的绘制,需实现复杂算法、图形渲染代码,测试模型对数学算法与图形编程的处理能力。ball-bouncing-inside-spinning-heptagon
(最深紫色):涉及小球在旋转七边形内的反弹动画,包含物理模拟(碰撞、运动轨迹)、图形交互等编码任务,考验模型对动态效果和物理规则的代码实现能力。
2.1 模型表现分析
- DeepSeek-V3-0324:总分数 338.8,在所有模型中排名靠前,显示其在多项真实编码任务中综合性能突出。
- 其他模型对比:
Claude-3.7-Sonnet-Thinking
以 334.8 紧随其后;- 部分模型如
OpenAI-01-mini
分数仅 66.8,表现较弱; - 主流模型(如
GPT-4.0
、Groq-3
等)分数分布在 200–300 区间,低于DeepSeek-V3-0324
。
DeepSeek-V3-0324
在真实世界编码场景中展现出较强的综合性能,优于多数对比模型,验证了其在编程任务上的优势。
二、榜单性能对比
上图是来自 "Artificial Analysis"数据,用于对比不同大语言模型在代码编辑任务中的智力、速度及成本。DeepSeek V3 (0324)
在智力和价格上都可以排到第四,速度上稍差排第九。
值得注意的的是,DeepSeek V3 (0324)
在非推理类的大模型中排第一。
三、效果展示
1.小球在旋转六边形内运动
该动图展示了一个基于 HTML/JavaScript 的编程项目,主要实现“小球在旋转六边形内运动”的效果,同时包含代码编辑界面、运行演示及功能改进说明,具体内容如下:
1.1 代码部分
- 动图上半部分显示 HTML 代码,核心是用 JavaScript 实现小球运动逻辑。代码包含:
- 绘制小球、处理碰撞的物理效果(如颜色混合、轨迹线条);
- 监听窗口缩放事件(
windowResized
函数),适配画布尺寸; - 鼠标点击添加新小球的交互逻辑(
mousePressed
函数)。
右侧“运行 HTML”区域展示程序实际效果:小球在六边形区域内运动,碰撞时触发物理效果(如速度变化),并带有火花特效,用户还可通过鼠标点击添加更多小球。
1.2 主要改进内容
- 多球系统:支持 5 个以上小球在六边形内独立运动,每个小球有独特颜色、位置和速度,还能通过按钮添加更多球。
- 球间碰撞检测:实现真实物理碰撞效果,碰撞时触发彩色火花,速度按物理规律改变。
- 改进的物理系统:所有球受重力、摩擦力影响,且球与六边形边界的碰撞检测更精确。
整体来看,该动图通过代码演示和功能说明,展示了一个具备交互性、物理模拟效果的图形程序开发成果。
四、体验
用户通过登陆 ‘DeepSeek官网’ 、APP、小程序进入对话界面后,关闭深度思考即可体验新版本的 Deepseek V3-032。
或则登陆 “SophNet网站” 体验新版本的 Deepseek V3-0324,这里我们就是在SophNet上体验的。
可以看出,虽然最终回答结果是对的,但是在回答过程中的解释还是有错误,重新提问正常的单词 “strawberry” 有几个r,他是可以回答对的。
引用
[1]. https://api-docs.deepseek.com/news/news250325
[2]. https://zhuanlan.zhihu.com/p/32518019035
更多推荐
所有评论(0)