
地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋
好消息!好消息!堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。这两天,网友们已陆续晒出截图:作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。但,次数有限!由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。是指启动推理模型。
好消息!好消息!
堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。
这两天,网友们已陆续晒出截图:
作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。
但,次数有限 !
由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。
Thinking 是指启动推理模型。
对此,AI 大神 Andrzej Karpathy 快速体验后,评价说:
「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,
比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。」
Thinking 模式
DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。
DeepSearch 模式
Big Brain 可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。
要体验完整的 Grok3 「三件套」,大伙儿可得破费了。
即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。
一顿操作下来,月费估计要 50 美金。
就刷榜成绩来说, Grok-3 表现确实不俗。
准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。
数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。
而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。
在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。
马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!
网友们也迫不及待地开始整活了。
-1-
意外啊
居然是中文写作高手
最让人意外的是,从刷榜成绩来看,明明是个优秀理科生,偏被中文网友发现中文写作水平真高!
一位科技博主让 Grok 3 写了一篇《我的故乡回忆》,直接把我看感动了!
「海就像村里的钟…日子就得跟着海走。」多好的句子啊!
煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵,闹归闹,遇事还是齐心」
…
充满乡土气息的日常文化符号,让一个 90 年代的泉州小渔村跃然纸上,也暗示了时代变迁。
来自x网友@imxiaohu
立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。
DeepSeek 也很擅长日常细节,怎么说呢,这些细节加起来并没有产生一加一大于二的效应,不如 Grok 3 的深刻,情感触动也不那么明显。
来自X@@Louis_Chenxf。提示词,分析一下上面这篇文章__的写作风格,写一篇题为《我的高中生活》的文章,长度也和例文一致。
至于最后出场的 OpenAI o1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。
来自X@howie_serious
DeepSeek 毒舌功力已经众人皆之,网友发现 Grok 3 辣评能力也是没有瓶颈!
让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被 Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:
夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?
吹牛不带喘气、细节一抓就漏风 …
-2-
Think 模式
确实是个理科高手
这些只是开胃菜。
作为一个数理编程的强者,网友们分享最多的是 Grok3 强大代码能力,简直是游戏开发者的福音。
比如,用 python 编写一个在正方形内弹跳的黄色小球的脚本,正确处理碰撞,使正方形缓慢旋转。
下面是 DeepSeek R1(左)、o1-pro(右)的结果。
继续输入提示词:
put the ball in a tesseract instead of a square
就有了下面这个结果。
这里只是基础模型,没有启动「 Think 」、「 Big Brain 」哦。
还能再复杂一些吗?
来自x_@_akhaliq_ prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what’s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?
网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。
然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。
结果,Run 一次就成功。
来自x_@CrisGiardina_ DeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please
AI 大神 Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前,很少有模型能稳定地完成这个任务。
结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。
而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败。
谢耳朵玩的就是《卡坦岛》风格游戏。
除了代码和复杂逻辑推理, Andrzej Karpathy 发现,在数学推理、探索解决黎曼猜想的测试中,Grok 3(「Think 」)也都表现不俗。
特别是针对黎曼猜想,Grok 3(和 DeepSeek R1 )表现出探索意愿,而其他模型会立即放弃并仅回复「这是未解难题」。
一些常见的陷阱题目也难不到它,但要打开「 Think 」。
Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。
Grok 3 告诉我 9.11 比 9.9 小。
-3-
DeepSearch 模式
挑战 OpenAI ?还嫩了些
不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。
Andrzej Karpathy 的评价是:
优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。
作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。
如果具有洞察力,那更好。
而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。
其他网友也发现了类似问题。
除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。
例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。
OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。
米勒德·菲尔莫尔(Millard Fillmore)作为美国第 13 任总统(1850-1853 ),其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。
关于他是否违反宪法的问题,是一个非常复杂的法律问题,但 Grok 3 的研究结论似乎不这么认为。
而 OpenAI 研究助手明显要审慎多得多。
-4-
始终翻不过的山
遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。
看来,思考推理能力对于幽默来说,更像是砒霜?
至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。
要么打太极,而 Grok 3 直面难题后,结论又明显功利主义了。
最离谱的当属 SVG 绘图挑战赛!
让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。
毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)