前言

3月24日凌晨,又是在毫无征兆的情况下,深度求索公司低调发布了DeepSeek-V3模型的最新版本DeepSeek-V3-0324。在DeepSeek-R1模型一统天下的今天,很多人都好奇为什么要迭代这款不具备深度思考功能的DeepSeek-V3模型呢。看DeepSeek官方的说明感觉这次更新也不大,在编程和推理方面的性能还是略低于DeepSeek-R1模型,那这次更新的意义是什么,不如直接发DeepSeek-R2。大家有类似疑问的一定要看看我今天的文章了,DeepSeek-V3-2024不但是国内首款,也是全球最强具备强推理性能的对话模型。在2025年AI Agent大爆发的今年,DeepSeek-V3-0324才是DeepSeek旗下第一款具备工业级Agent开发能力的基础模型,在未来这款模型甚至比DeepSeek-R1更具备发展前景。
在这里插入图片描述

一. 官方公告

1.1 在V3上能力上的优化

据官方公告,本地DeepSeek-V3-0324模型相比于DeepSeek-V3主要在推理能力、代码能力和长文本能力三个方面有较大提升,

在这里插入图片描述
对比全球顶尖的对话(非推理,不生成思维链)的模型如Qwen-Max, GPT-4.5和Claude-3.7等,DeepSeek-V3-0324模型的综合性能也很强势。虽然在多领域(涵盖数学、物理、化学、法律、工程等14个领域,12000道问题)的数据集MMU-Pro上和GPQA-Diamond(研究生水平专家推理评测)能力仅次于GPT-4.5排第二,但在Math-500(数学)评测集,AIME(美国数学挑战赛)评测集,LiveCodeBench(代码)评测集超过了其它所有大模型。综合来看,DeepSeek-V3-0324再次稳定全球对话模型性能排行榜。

在这里插入图片描述

1.2 在R1能力上的优化

根据官方报告,DeepSeek-V3-0324不仅在DeepSeek-V3模型上有提升,在DeepSeek-R1的能力也有提升。首先针对R1的写作水平进一步优化,同时特别提升了中长篇文本创作的内容质量。比如让DeepSeek-V3-0324写一篇关于苏轼生平的散文或创作一部中篇爱情小说,DeepSeek-V3-0324可以足足涵盖128K的上下文(想想128千个词是什么概念!)

在这里插入图片描述
在这里插入图片描述

同时 V3-0324 模型在联网搜索场景下,对于报告生成类指令输出内容相比R1更为详实准确、排版更加清晰美观的结果。比如以下生成市场洞察报告的案例,仅需一句话模型就帮你顺利完成

在这里插入图片描述

1.3 模型开源协议

新模型的开源协议更新为MIT协议(业界良心),这是非常宽松的开源协议,模型可免费部署、商用、以及进行模型蒸馏。

在这里插入图片描述

二、代码能力实测

身为一个程序员,对于DeepSeek-V3-0324的能力自然要我亲自试一下,据官方论述,在HTML等代码前端任务上,新版V3模型生成的代码可用性更高,视觉效果也更美观,富有设计感。那我就让它挑战创建一个布局美观并且可以流畅运行的国际象棋小游戏, 这个哪怕是Claude3.7或者是刚刚发布的Gemini2.5 pro都无法完成。

提示词如下:

你是一个html和Js的编写高手,请帮我用html, css和js写一个 国际象棋的小游戏,要求保证代码的准确性,可以正确运行游戏,同时注意代码的简洁性和可阅读性

DeepSeek-V3-0324帮我们生成了一个包含html, css和js代码的html文件,直接点击运行HTML,不是咱说,效果就是那么牛逼,成功运行且没有一点报错!DeepSeek-V3-0324模型大代码能力已经到达顶尖水平,这样的V3搭配国产AI编程软件Trae,还要惧怕Cursor收费嘛?

在这里插入图片描述

在这里插入图片描述

三、DeepSeek-V3-0324最大亮点

3.1 V3-0324在Function Calling技术上表现

大家千万别以为这就是新模型的全部。俗话说“外行看热闹,内行看门道”,那新模型背后的“门道”到底是什么呢?那就是DeepSeek-V3-0324模型最大的提升是Function Calling能力,我的上篇文章从0到1开发DeepSeek天气助手智能体——你以为大模型只会聊天?Function Calling让它“上天入地” 正是借助了DeepSeek-V3-0324强大的函数工具调用能力(要知道DeepSeek-V3和R1的Function Calling能力一直广被诟病,对函数识别傻傻分不清),新版的V3-0324模型不仅调用工具的准确率提升,经测试还支持多工具函数的并联调用和串联调用,甚至还有工具函数调用失败后的自动纠错功能。可以说即使现在不依靠一些成熟的Agent开发工具,V3-0324的Function Calling能力也能够快速搭建简易智能体。

实测时我还是使用从0到1开发DeepSeek天气助手智能体——你以为大模型只会聊天?Function Calling让它“上天入地”中的例子,我同时询问北京和上海的天气,并提供写文件函数让V3-0324把结果写入指定文件中,V3可以清楚的感知我要并行调用两个函数get_weather('北京')get_weather('上海'), 同时还串行的把get_weather后的结果写入文件中,写入文件有乱码V3-0324还进行了自动处理,流程图如下:

在这里插入图片描述

整个过程只使用了DeepSeek-V3-0324模型原生Function Calling能力,没有借助其它Agent开发工具和MCP工具,可以说能达到整个效果还是十分不错的(不过没在生产环境中实际评测)。从以上示例中也可以看出新版V3-0324模型就是国产模型中Agent能力最强的大模型没有之一,Agent能力比起GPT-4o和Claude3.5等老牌模型也毫不逊色!

3.2 与DeepSeek-R1相比

有人说为什么不用DeepSeek-R1进行Agent开发,原因有如下几点:

  1. DeepSeek-R1没有Function Calling功能, 即使用外部工具,R1也被人诟病Fucntion Calling根本不稳定。
    在这里插入图片描述

  2. 每次响应R1虽然性能不错,但要生成一大段的思维链,只会导致运行效率过于低下,不适合构建智能体。

  3. R1虽然思维链能力强,但相应的大模型幻觉能力也更严重,无中生有的功能不适合Agent开发(这也是Manus放着DeepSeek-R1不用偏要使用Claude3.7作为底层模型的原因)

四、总结

DeepSeek-V3-0324的发布让大家看到深度求索公司依然是大模型领域的Top,同时更验证了一个公司只有脚踏实地的技术沉淀才能做到屹立于强敌之林而不倒。

更让人欣喜的一点,可以从DeepSeek-V3-0324的更新中看到未来底层大模型技术发展方向,推理模型不适合进行AI Agent的开发(不是R1的问题,是全部推理大模型的问题),要想解决这个问题,一定要将两种模型能力合并打造兼具推理性能和Agent开发性能的全新形态大模型。DeepSeek4借助R1创造大量的高质量合成数据训练V3提升其逻辑能力完成两类模型合并,虽然DeepSeek一再强调这只是一个小版本的改动尝试,但谁又会知道这次尝试不会是未来发展的方向呢?
大家阅读后感兴趣可关注wx公众号大模型真好玩,大模型工作学习中的资料、经验和教程免费分享~

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐