
马斯克发布「地表最强」Grok-3,屠榜多个排行榜,暴击DeepSeek-R1
今天,马斯克的AI初创公司xAI发布了 Grok-3 大模型,被称为“地球上最聪明的人工智能”。在当天主题为「我们的使命是理解整个宇宙」的直播中,马斯克与该公司的三位工程师一起进行了现场演示,官宣 Grok-3 系列:Grok 3 mini:Grok-3 的轻量版本首个推理模型 Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepS
前言
今天,马斯克的AI初创公司xAI发布了 Grok-3 大模型,被称为“地球上最聪明的人工智能”。
在当天主题为「我们的使命是理解整个宇宙」的直播中,马斯克与该公司的三位工程师一起进行了现场演示,官宣 Grok-3 系列:
-
Grok-3(Beta)
-
Grok 3 mini:Grok-3 的轻量版本
-
首个推理模型 Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算
-
首个AI智能体「DeepSearch」:联网深入搜索
据介绍,Grok-3 使用了拥有约 20 万个GPU的大型数据中心进行训练,其计算能力是上一代版本 Grok-2 的 10 倍,那么实际表现又如何?
我们还是直接看 Grok-3 的基准测试成绩吧。
在多项基准测试中,Grok-3 在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。
Grok-3 mini 的性能基本上领先或媲美其他闭源/开源模型。
在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本(chocolate)刷榜,Elo评分达 1402 分位列最高,超过了包括 DeepSeek-R1 在内的所有其他模型。
在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中,Grok-3 每个维度上都排第一。
1、Grok-3 解锁测试时计算,暴击o3-mini、DeepSeek-R1
Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。
Grok-3 的推理模型分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。
在多项基准测试中,在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)上,Grok-3 Reasoning 和 Grok-3 mini Reasoning「推理 + 测试时计算」表现均大幅超越 o3-mini(high)和 o1、DeepSeek-R1,还有谷歌 Gemi-2 Flash Thinking 等其他一众推理模型。
在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 性能同样刷新SOTA,分别拿下了93和90分。
2、高级推理:思考(Think)模式,「Big Brain」模式
像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长。
进入聊天入口,直接选择「Think」模式即可。
AI 大牛 Andrej Karpathy 对 Grok-3 思考(Think)模式的评价:Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Grok-3 还上线了「Big Brain」模式,它使用更多算力来解决问题,进行更深度的思考。
3、智能体「深度搜索」(Deep Search)模式
Grok-3 还具备了强大的智能体能力,上线首个智能体「深度搜索」(Deep Search)模式,能够在互联网上进行更深入的搜索。
深度搜索(DeepSearch)允许用户对互联网和X平台进行全面搜索。该模式分析大量信息,并通过快速高效的搜索过程提供详细、合理的答案。
通过深度搜索(DeepSearch),可以进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码等。
例如,问DeepSearch智能体:下一次星舰发射是什么时候?
可以看到页面左边,它展示出了搜索和推理的过程,而在右边,则展示出了深度思考过程,以及模型正在浏览什么样的网址和网页。
最后,智能体给出了答案:25年2月24日。
4、Grok-3 将全面开源
目前,Grok-3 每天都在更新推理功能,马斯克也放话:一周内,Grok 的所有功能都将上线!
传送门:https://grok.com/
值得注意的是,Grok-3 将在一周后增加语音模式。
Grok-3 语音模式是 Grok-3 的一个变体,能理解你说的话,并且直接生成音频。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。
另外,马斯克表示,几个月之后会对 Grok-3 进行全面的开源。
目前,订阅 Premium Plus 的 X 用户将首先用上 Grok-3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。
SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。
主动改变是红利,被动改变是后退!
作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,详尽的全套学习资料,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
无论是初学者,还是希望在某一细分领域深入发展的资深开发者,这样的学习路线图都能够起到事半功倍的效果。它不仅能够节省大量时间,避免无效学习,更能帮助开发者建立系统的知识体系,为职业生涯的长远发展奠定坚实的基础。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)