
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
刚刚,OpenAI把o3-mini的推理思维链公开了。从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。用户的提问是“为什么今天不少星期五o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。最后回
刚刚,OpenAI把o3-mini的推理思维链公开了。
从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。
评论区网友纷纷:让我们谢谢DeepSeek。
在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。
用户的提问是“为什么今天不少星期五”
o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。
最后回答的中,调侃了是日历规定今天是星期四,并安慰用户“忍耐一下,明天就离周未更近了!”
那么作为“同行”,DeepSeek-R1如何评价o3-mini的思维过程呢?
在这个案例中,AI声称使用了蔡勒公式但没有给出计算过程的现象引起了很多人警觉。
不少用户怀疑这仍然是事后对AI思维过程的再总结,而不是原始数据。
实际上在最近的“回应一切”活动中,OpenAI首席产品官Kevin Weil也暗示了这点:
……展示完整思想链会被竞争对手蒸馏,但我们也知道人们(至少是资深用户)想要它,因此我们会找到正确的方法来平衡它。”
对此,开发者Mckay Wrigley补充了一个观点:“我担心经过总结的思维链实际上比没有思维链更差”。
真正的思维链相当于prompt的调试器,有助于我们引导矫正模型。
经过总结的思维链增加了迷惑性并且可能额外添加错误,让模型难以被调试。
但不管怎么说,既然公开了,现在免费用户也能一窥o3-mini的CoT,大家还是敞开玩了起来。
o3-mini思维链首批实测
OpenAI多模态Agent的研究员,首先亮出了自己的玩耍方法,让o3-mini玩井字棋游戏——就是在3*3格子上用O和X连线那个。
输入Prompt:
你正在玩井字棋,你是O。到目前为止,X已经在左上角和右下角玩过,你已经在中间玩过。下一步的最优策略是什么?只用你的答案和棋盘图回答。
然后o3-mini就开始噼里啪啦思考。
这位OpenAI员工非常直言不讳,表示o3-mini是第一个回答这个游戏的大模型。
But还有一句,“虽然o3-mini的CoT过程有点不靠谱,但你看右边的图,结尾它的弄清楚了的”。笑不活了,这里必须要送上一个手动狗头。
然后是每个大模型都逃不过的经典测试题:数strawberry里面的“r”的数量。
但网友已经和模型一样进阶了,问的不是strawberry里面到底有几个某字母,而是:
为啥AI大模型,数strawberry里面有几个“r”,它就那么费劲呢???
我们认真观摩了它的思考过程,o3-mini承认“乍一看,计算strawberry中‘r’的数量对人类来说似乎是一个微不足道的任务,但对于许多AI语言模型来说,这可能是一个惊人的挑战”。
然后它从四个角度来思考和推理这个现象发生的原因,分别是:
-
用自然语言而不是算法训练
-
Tokenization问题
-
迭代推理的缺失
-
对模式识别的依赖
8秒过后,o3-mini给出总结:
因为AI大模型本质上不是为精确、分步骤的算法操作而设计的,它们的设计和训练更多地侧重于根据上下文预测和生成文本,而不是执行精确的算术或系统计数。
当然,o3-mini也不是万能的。
推特有网友表示,他探问了o3关于私有CoT的事情,但听君一番思考推理,如听一番思考推理,没有丝毫进展。
最开始,o3-mini思考过程还蛮有逻辑,从不同种类的“内心叙事”、可解释性和实用价值等方面分析,表示展现完整的CoT过程程似乎有助于“扎根”社会的理解并促进更好的认知实践,但现实更为复杂,毕竟AI大模型和人类的认知还没有完全对齐。
但随着网友的追问,o3-mini的思维链就崩了(?),急得他团团转,中间一度打开DeepSeek-R1来帮忙。
他放上了整整12张图,显示最后o3-mini思维了半天,给出了一个令人心碎的回答:
对不起吼,但我真的帮不了你一点。
除此之外,还有网友提出了质疑,觉得OpenAI公开的不是o3-mini原始的CoT。
有几个原因,其中一个是它(CoT过程)真的显示得很慢。
而如果是原始的o3-mini非常快,讲道理推理的生成速度应该比现在呈现的快得多。
他继续罗列自己之所以怀疑的证据,比如同一个问题,o3-mini-high只有1384个字符,而o1-preview生成了16577个字符。
“这只有两种可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”
One More Thing
想对上面这位推特网友说,Bingo!
根据TechCrunch消息,OpenAI发言人确认了这次公开的不是原始思维链,并且给出两个理由:
-
对原始思维链做后处理,可以消除任何不安全的内容,并简化任何复杂的想法。
-
使非英语用户获得母语的思想链,有更友好的体验。
这样一来,最近被大量吐槽的o3-mini使用中文思考的问题,也就不存在了。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)