一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言...
之前最火的人工智能是国外的ChatGPT(同一个问题,Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答?),但是在过年这段时间,没有谁能火的过国内的DeepSeek。最近也收到不少私信,问我用过DeepSeek没有,确实用了,从2024年12月份开始用的。当时用起来就被这个深度思考功能给打动了,但是呢,他当时有一个上下文理解的问题,一个是经常上下文不连贯,再就是动不动回答就
之前最火的人工智能是国外的ChatGPT(同一个问题,Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答?),但是在过年这段时间,没有谁能火的过国内的DeepSeek。
最近也收到不少私信,问我用过DeepSeek没有,确实用了,从2024年12月份开始用的。
当时用起来就被这个深度思考功能给打动了,但是呢,他当时有一个上下文理解的问题,一个是经常上下文不连贯,再就是动不动回答就成英文了。
年前也有一个历史遗留问题,设计一个验证算法,当时国内的人工智能全都失败了,最后还是用ChatGPT解决的,具体问题我就不说了,属于隐藏付费项目了。
今天又问了人工智能一个数学问题,其实就是领英上的一个小游戏,叫做Tango。我是这么问的:
你知道tango游戏吗?他的规则如下:
1,在6*6的棋盘上填满太阳🌞和月亮🌙两种图标,
2,每行和每列分别都有三个太阳🌞和三个月亮🌙,
3,最多只能有两个太阳和两个月亮相邻,不能出现三个相邻的情况,
最多可以有多少种布局?
没想到,这个问题一下子就把所有的人工智能都给干趴下了,尽管大家都说自己的数学已经是博士水平了。
首先是DeepSeek,经过长达将近10分钟的思考,他最终还是放弃了。
从过程中我们可以看到,他尝试了各种算法,最终还是认为这个问题可能没有简单的闭式解,因此可能需要通过计算机搜索来求解。但根据题目要求,可能需要给出一个数值答案,因此他只能给出一个可能的估计,或者指出由于问题的复杂性,手动计算不可行。
但是这个回答有些潦草了,我手工计算了一下,第一行就有14种布局方式,第二行和第一行互不干预,这样就有14*14=196种了;当然,后面的计算会很复杂,我暂时也算不出来了。但是这个64种属实是草率了。
然后我又问了豆包,他经过搜索,给出了40种的答案,很明显这个结果也是错误的。
然后我又问了通义千问,结果他直接摆烂了,无法直接为你提供具体的解数量,因为这需要大量的计算资源和时间来遍历所有可能性。
当然,这种挑战不能把文心一言给忘了,虽然他也不会。即使我们能够计算出所有可能的布局数量,这个数量也可能非常大,以至于在实际应用中无法有效地存储或处理。
最后,把ChatGPT请出来问一下。
显然,这个问题把ChatGPT也难住了。既然大家都不会,那我们换个思路,按照人工智能的提示,写一个Python脚本验证一下。
最终结果,ChatGPT计算结果为134990,通义千问和豆包的结果均为11222,如果按照少数服从多数来看,应该是11222更可靠一些。
什么?你问为什么没有DeepSeek的脚本?那是因为你们用的太多了,他都没办法响应我的问题了,我重试了7次,都失败了。
各位老板,你们对人工智能的数学能力怎么看?
***推荐阅读***
在SD-WAN网络中应用OpenVPN,chatGPT是这样想的
目前来看,通义千问好像勉强能喝ChatGPT-3.5打个平手!
同一个问题,Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答?
Ubuntu使用Tesla P4配置Anaconda+CUDA+PyTorch
Zabbix实战第一步:完成在Ubuntu Server的安装部署
没有图形界面,如何快速部署一个Ubuntu 24.10的Server虚拟机
清华大模型ChatGLM3在本地Tesla P40上也运行起来了
更多推荐
所有评论(0)