当前流行的AI聊天工具众多,本篇通过2个问题看看最好的免费产品(ChatGPT、Grok、Gemini、DeepSeek等)的推理能力,通过文末的测试总结,帮助朋友们进行针对性的选择。

问题1

  • 输入:“deepseek中有几个e”

看看各家的答复:

(1)DeepSeek-V3与DeepSeek-R1均回答正确👍:

图片

(2)ChatGPT-4o回答错误,o3-mini回答正确:

图片

图片

(3)Grok3与其推理模式均回答正确👍:

图片

(4)Gemini 2.0 flash回答错误,2.0 Flash Thinking Experimental回答正确:

图片

图片

问题2

  • 输入:“请用我给你的4个数字,通过加、减、乘、除、括号,组成一个运算,使得结果为24。注意:数字需要全部使用我提供的数字:4468”

看看各家的答复:

(1)DeepSeek-V3回答错误,DeepSeek-R1回答1次正确、1次错误:

图片

图片

(2)ChatGPT-4o回答错误,o3-mini回答错误(接近正确):

图片

图片

(3)Grok3回答正确,推理模式1次正确、1次错误:

图片

图片

(4)Gemini 2.0 flash与2.0 Flash Thinking Experimental回答均错误:

图片

图片

小结

1、偏严谨的分析类问题,尽量选择“推理”/“深度思考”/“Think”模型,优先考虑DeepSeek-R1。

2、号称全球最好的(马斯克的Grok3),基础版本(非Think)确实表现好,但Think模式也会出偏差。

3、ChatGPT免费版本(4o与o3-mini)表现很差(体现其商业版的价值了?)。

4、谷歌的Gemini 2.0 flash表现很差(但速度很快)。

5、同一个问题,即便是推理模式,返回结果也会有对有错(记得多次校验)。

欢迎关注微信公众号“AI趣栈”,持续为您提供关于AI的好内容~

图片

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐