公众号原文更完整:https://mp.weixin.qq.com/s/BGSerEKbcIk0lcsyjM1nRg

你好,我是悦创。

其实说实话,ChatGPT 一直都是闭源的。直到 DeepSeek 横空出世并且完全开源,随之马上发布 o3-mini、o3-mini-high,还展示出来思维链。其实怎么说呢?有没有可能抄袭 DeepSeek 呢?(谁都说不准,但是一定大家保有自己的想法才可以!)

温馨提示:不论你在下面的内容阅读后,有什么心得(先评论下来),都要注意以下几点:

  1. OpenAI 是坐拥海量资源训练出来的;「成本高、人才多、GPU 充裕」
  2. DeepSeek 是在资源缺乏中训练出来的并且完全开源!;「成本低、人才多,GPU 不充裕」
  3. OpenAI 在 DeepSeek 开源出来之后,上线 o3系列并且显示思维链,也值得深思!
  4. 这两个大模型都很厉害,但是请注意!也许现在看起来 DeepSeek 略弱一点,但是资源多一些、GPU 充裕一些呢?你细品!细细品!

开始阅读学习吧!祝你阅读愉快并留下你的想法💡


o3-mini 可在 ChatGPT 中免费使用,同时对 Plus 和 Pro 订阅用户开放

昨天,OpenAI 发布了 o3-mini 和 o3-mini-high,现在它们已在 ChatGPT 和 API 中上线。

o3-mini 在高级推理方面表现迅速,而 o3-mini-high 则在编程和逻辑方面表现出色。

最令人惊叹的是:o3-mini-high 在 LiveBench: https://livebench.ai/#/ 上的编程平均分为 82.74。其他模型则远远落后:o1(69.69)、claude 3.5 sonnet(67.13)、deepseek-r1(66.74)。

LiveBench

o3-mini-high 是目前最佳的编程模型,就这么简单。

更棒的是,即使是免费用户也可以在 ChatGPT 中试用 o3-mini(选择 “Reason” 按钮)。Plus 和 Team 用户每天有 150 条使用 o3-mini 的消息限制,而 Pro 用户则可无限制使用 o3-mini 以及 o3-mini-high。

让我们探讨一下如何使用 o3-mini 进行编程,并仔细看看它与其他模型相比的表现。

o3-mini 在编程中的应用案例

测试表明,o3-mini 在编程方面表现出色。在下面的例子中,你会看到许多用户仅用一次提示(加上几次尝试)便能构建游戏和小型应用。这是一个利用代码开始构建你想要的东西的好机会!

首先,这是一个我轻松用 Python 代码创建的太空射击游戏,多亏了 o3-mini。我只给出了一些指令,运行生成的代码后,很快就得到了游戏。

o3-mini-high 是目前最佳的编程模型。

它在 LiveBench 上的编程平均分为 82.74,而其他模型根本无法相提并论:o1(69.69)、claude 3.5 sonnet(67.13)、deepseek-r1(66.74)。

这里有一个很酷的太空射击游戏,我只用了一个提示:

“使用 Python 创建一个太空射击游戏。让游戏画面看起来像真实游戏(而不是三角形/矩形)”

视频

一位 X 用户:https://x.com/_aidan_clark_/status/1885408020529545621 用 o3-mini 创建了一个简单的 Twitter 克隆。仅用了 8 秒!

o3-mini 的智能与速度组合令人难以置信,除了亲自试试,你别无他言。这个任务只花了 8 秒,你需要多长时间呢?

视频 + 图片

另一位 X 用户: https://x.com/flavioAd/status/1885449107436679394 使用 o3-mini 和 DeepSeek 编写了一个 Python 程序,展示一个球在旋转的六边形内弹跳(重力测试)。下面是他获得的结果。

视频

o3-mini 完全碾压 DeepSeek R1

“编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁反弹”

视频

03-mini 输出的代码:

  • 测试 1: http://codemark.bornforthis.cn/share/2565c29f-c4da-4f70-8c2c-18db08338701_20250202222527
  • 测试 2: http://codemark.bornforthis.cn/share/cd4fa872-0a2e-489b-8486-1b3edfb7a040_20250202223219

DeepSeek R1 输出的代码:

  • 测试 1: http://codemark.bornforthis.cn/share/4779d356-2f1a-4bb5-ad11-d4af3ea4d212_20250202223015
  • 测试 2: http://codemark.bornforthis.cn/share/e0bca13d-e8b6-4fe2-9028-eae0cf7c0bfe_20250202223251

一些网友评论道:

Derp:结果显而易见,但有点不公平。LLMs 会以各种方式给出随机回答,你应该至少让两个 LLMs 各执行 50 次相同例子,然后看看哪个模型在大多数情况下表现更好。

Andrew:我敢肯定 o3-mini 在那些弹跳球问题上经过了大量训练,因为似乎每个意见领袖都试图让新的 LLM 解决一些弹跳球问题。

就这样,还有许多其他 o3-mini 的示例展示了这个模型在编程方面的出色表现。但不要只听我说,让我们看看数据吧!

o3-mini 针对 STEM 推理进行了优化

OpenAI 的 o1 模型依然是他们广泛的通用知识推理模型。但 o3-mini 提供了一个专门针对科学、数学和编程的替代方案。此外,它还降低了 o1-mini 的延迟。

以下是从 数学评估 中获得的一些见解:

  • 在低推理负荷下,o3-mini 能与 o1-mini 取得相近表现
  • 在中等推理负荷下,o3-mini 在数学、编程和科学方面与 o1 表现持平,同时响应更快
  • 在高推理负荷下,o3-mini 的表现超过了 o1

OpenAI

LiveBench

至于编程,LiveBench 显示即使在中等推理负荷下,o3-mini 也比其他模型(deepseek-r1、o1、claude-3.5-sonnet 等)表现更优;在高推理负荷下,o3-mini 拉开了差距,在关键指标上获得了显著更强的表现。

在 Competition Code 中,OpenAI 的 o3-mini 随着推理负荷的增加,其 Elo 分数逐步提高。

OpenAI

软件工程测试也是如此:

OpenAI

基本上就是这样!我鼓励你亲自试用 o3-mini,看看它在 STEM 推理上是否能超越其他模型。

一些网友评论道:

EJack Yao:我尝试让 o3-mini-high 回答一些经典的 Java 谜题,比如 “Oddity”、“Poison Paren Litter”、“Raw Deal” 等。我猜他们没有在这些经典问题上进行训练,因为它确实在解决大部分问题时遇到了困难。
创建一个简单的 Python 脚本效果很好,而 DeepSeek R1 也很出色——至少它现在会倾听,不像 o1。当我们提供一个算法时,DeepSeek R1 显示了它的思考过程,就好像我的天才软件工程朋友在审查我的作品。但与此同时,这也是一个很好的学习机会。

Gene T:我刚刚在我的工程提案中使用了 o3-mini 和 o3-mini-high。与 ds r1 相比,它们糟糕透顶,完全不行。

s

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐