
谁更聪明?Deepseek模型不同版本对相同问题回答的简略比较
本文比较了deepseek模型不同版本对同一问题回答的答案,同时,也对微软的copliot和Qwen模型提出了同样的问题,也得到了回答,现在把所有模型的回答都全文列出来,谁更聪明,请各位看官自行判别。
近期最火的AI就是深度探索发布的deepseek模型了,它的出现在世界范围内给人工智能领域造成了很大的冲击,而且这个冲击还扩散到其他的行业和领域。AI的应用肯定会给传统生产模式带来巨大的影响,Deepseek的出现也给中国在这个领域的发展带来机遇。
目前我们能够使用的Deepseek模型有多个版本,比如在ollama(一个在本地部署、运行大型语言模型的工具)平台上,deepseek模型就有从1.5b到671b的7个版本,每个版本适用不同的硬件条件。理论上,b前面的数字越大,运行模型所需要的硬件要求就越高,模型也越聪明。笔者非AI领域的从业人员,好奇心驱使我对每个模型提出了同样的问题,想看看不同模型的回答有多少差别,我的问题是这样的:“在html模板中,bootstrap 3里的panel组件在bootstsrap 5里不存在了,在bootstrap 5里用什么组件才能达到bootstrap 3里的panel组件效果?”由于我的机器显存容量只有16G,所以只在本地部署了1.5b到14b和deepseek模型,高于14b是使用了硅基流动上的deepseek模型。同时,也对微软的copliot和Qwen模型提出了同样的问题,也得到了回答,现在把所有模型的回答都全文列出来,谁更聪明,请各位看官自行判别。
图1到图5是deepseek-r1:1.5b的回答:
图1
图2
图3
图4
图5
从图6到图12是deepseek-r1:7b模型给出的答案:
图6
图7
图8
图9
图10,
图11
图12
从图13到图16是deepseek-r1:8b模型的回答:
图13
图14
图15
图16
从图17到图21是deepseek-r1:14b模型的答案:
图17
图18
图19
图20
图21
从图22到图26是deepseek-r1-distill-qwen-32b模型的回答,不过,这个貌似deepseek与qwen模型的混合产物,它的介绍是这样的:deepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,在数学、编程和推理等多个领域展现出卓越的性能。在 AIME 2024、MATH-500、GPQA Diamond 等多个基准测试中都取得了优异成绩,其中在 MATH-500 上达到了 94.3% 的准确率,展现出强大的数学推理能力。
图22
图23
图24
图25
图26
图27至图30是deepseek-ai/DeepSeed-R1-Distill_Llama-70B模型的回答,跟32b的一样,它是deepseek跟llama模型的混合产物,介绍是这样的:DeepSeek-R1-Distill-Llama-70B 是基于 Llama-3.3-70B-Instruct 经过蒸馏训练得到的模型。该模型是 DeepSeek-R1 系列的一部分,通过使用 DeepSeek-R1 生成的样本进行微调,在数学、编程和推理等多个领域展现出优秀的性能。模型在 AIME 2024、MATH-500、GPQA Diamond 等多个基准测试中都取得了优异的成绩,显示出强大的推理能力。
图27
图28
图29
图30
从图31到图33是deepseek r1全尺寸、满血版模型671b的答案:
图31
图32
图33
图34是微软的copilot模型的回答:
图34
图35和图36是Qwen2.5-Max模型的答案:
图35
图36
图37到图39是Qwen2.5-VL-72B-Instruct模型的回答:
图37
图38
图39
以上就是各种AI模型对同一个bootstrap版本及组件差别回答的所有内容,从答案中可以看出,除了deepseek 7b模型外,其他的模型都得出了bootstrap 5中的组件card可以取代bootstrap 3中的panel组件,因此可以认定用card组件取代panel组件是正确的答案;deepseek模型的答案较其他两种模型的回答要丰富一些,因为它包含推理过程,笔者个人认为14b的推理过程比较合理,代码也比较完整,而满血版的回答则比较简洁,但结论比较明确,尤其是把两种组件属性对应关系用列表表达出来更是一目了然。就以上回答的感觉而言,我可能更喜欢14b模型,因为它像一个老师。如果仅仅想得到正确的答案,对于像笔者这样的基础性问题,低版本的模型完全够用了。不过,如果能把高版本的模型揣在兜里,以备不时之需也是一个好主意。
更多推荐
所有评论(0)