关于DeepSeek的文章已经铺天盖地,好处是大家都知道了DeepSeek的厉害,包括对美国AI地位的冲击,对美国股市的影响,普及了AI大模型知识,但多数文章都是泛泛而谈,甚至有可能过度吹捧。本着客观原则,趁春节假期最后的时间实际上手试试,和其他几个模型做个对比测试。

1. 对比模型的选择

DeepSeek使用官网最新的推理模型DeepSeek R1。

在DeepSpeek全球掀起狂潮之际,OpenAI于2025年1月31号发布了最新版的也是他们第一个小型推理模型o3-mini,性能比上一版o1系列有不同程度提升,可以说现在全球最耀眼的也是就是DeepSeek和OpenAI最新的模型,所以必须选择o3-mini进行对比。

在DeepSeek火热之前,国内月之暗面的Kimi模型我使用感觉效果也不错,选择加入比较。

此外,开源模型里千问系列影响力也比较大,选择最新、最大开源的通义千问2.5-72B。

所以最终比较的模型:

  • DeepSeek R1

  • OpenAI o3-mini

  • Kimi网页默认版

  • 通义千问2.5-72B

2. 关于OpenAI o3-mini

o3-mini的发布感觉有点被DeepSeek卷出来的味道,并且普通用户有一定量的免费使用次数,我用免费账号就做完了测试。API调用也比上一代o1版本便宜了90%,不得不说是DeepSeek竞争的功劳。

网页版里,用户只要选择“Reason”就可以体验。

o3-mini分为low、medium、high三个版本,下面是OpenAI官方对比o3和o1系列模型在不同测试集上性能情况:

除了性能上有提升外,延迟上也有改进,o3-mini medium和o1-mini比,平均响应时间从10.16秒下降到了7.7秒,提升了24%。其他详细实验结果请阅读[1]。

除了官方结果外,大家免不了对o3-mini和DeepSeek进行比较,以下资料来自于[2]:

LiveBench测试结果

LiveBench测试中,平均成绩o1和o3-mini high版本都稍高于deekseek-r1,在数学和数据分析中r1接近或者好于o1、o3-mini,在编程和推理方面差一些。

Humanity’s Last Exam

人类最后一次考试测试集,号称人类最难的公开测试集,从各领域专家搜集的难题,deepseek-r1低于o3-mini,高于其他模型。

3. 对比测试一:饭前小菜

先来一个经典问题,一般大家都用来测测大模型,我在这里称为饭前小菜,就是比较9.11和9.9谁更大,如果纯比较数字式9.9更大,但大模型其实擅长文本处理不擅长数字,例如可能以为9.11是书的章节数就比9.9大等等。原本我以为发展到现在大多数模型都能搞定,其实不一定。

DeepSeek R1:正确

DeepSeek R1的特点就是进行了深度思考的推理,看上面深度思考用了26秒。

o3-mini:错误

出乎我意料的是,o3-mini居然做错了,我怀疑是不是用错了模型,但下方显示的确实是o3-mini。

Kimi:正确

过程简洁明了。

千问2.5-72B:正确

和Kimi类似,简洁明了。

4. 对比测试二:文本生成

文本理解和生成是大模型最擅长的领域,以前我们为了让大模型能更好地理解和生成内容,大家总结了一堆提示词写作技巧,比如明确告诉模型步骤1、2、3、4,现在推理模型出来后,其特点更倾向于告诉它最终目的,让大模型来思考和推理,所以我的测试问题选择了让模型做一个年终汇报稿,不告诉它从哪些方便思考,只说我的目的,看看几个模型的区别。

DeekSeek R1:思考有深度、有理有据、注重量化、表达有力量

o3-mini:思路清晰,分析深度和表达力度比deepseek弱

Kimi:前半部分总结尚可,后部分个人成长和规划比较肤浅,缺少分析推理

千问2.5-72B:和Kimi类似,分析较浅,比较典型的AI答复

5. 对比测试三:数学题

数学题是大模型测试另一大领域,我选择了2025年全国高考数学卷一个选择题。

DeepSeek:正确(推理过程冗长,省略部分截图)

o3-mini:正确(省略部分推理截图)

Kimi:正确,简洁

千问2.5-72B由于不支持上传图片,未进行测试。

6. 对比测试四:编程

最后对比一个重要的领域:编程。

出了一个中等难度的题目:用python代码画一个迷宫,然后找到一条从入口到出口的路标识出来。

DeepSeek R1:错误,未正确标识路径,对话互动提示了一轮仍然错误。模型代码运行后直接演示了一个动画,其他模型生成代码都只是生成了张图片。

o3-mini:正确,部分路径走了弯路

Kimi:错误,未正确标识路径,对话互动提示了一轮仍然错误

千问2.5-72B:错误,未正确标识路径,对话互动提示了一轮仍然错误

编程界最厉害的号称是cursor,所以使用cursor试了一下,果然厉害,正确!比o3-mini还好,没走弯路,如下图。

7. 总结

通过上述测试,可以看出DeepSeek R1和OpenAI o3-mini所谓推理模型的特点和厉害之处,主要在于模型自行分析和反思,类似人一样思考,对人使用来说更加方便,减少绞尽脑汁花在思考提示词上的功夫,也说明模型越来越智能。同时,对大模型应用,例如agent开发也是直接的好处,因为agent主要就使用大模型的推理能力。

对比测试中Kimi使用默认的通用模型,未使用其更擅长复杂任务推理的k1.5模型。

总体来说,OpenAI的模型优秀,DeepSeek可以说处于同一梯队,其最近的火热不是吹的,但也不能过度神化,保持客观,除了和OpenAI相比低成本训练、创新性的训练方法,关键还开源公开技术细节,确实实力在线,国产大模型们加油!

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。

大模型典型应用场景

AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。

这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。

学习资料领取

如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
请添加图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、LLM面试题

在这里插入图片描述
在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

六、deepseek部署包+技巧大全

在这里插入图片描述

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
在这里插入图片描述

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐