
干货满满,本地大模型测评大揭秘,带你探寻隐藏的最优解
最近,DeepSeek可谓是风光无限,吸引了众多目光。也正因如此,不少人开始着手在本地部署大模型。那么,本地部署的DeepSeek-R1实际表现究竟如何呢?
本文章仅代表作者个人观点,请勿曲解,有其他想法的可以发在评论区
最近,DeepSeek可谓是风光无限,吸引了众多目光。也正因如此,不少人开始着手在本地部署大模型。那么,本地部署的DeepSeek-R1实际表现究竟如何呢?
本次测试均在断网环境下进行
如果您觉得我的创作还不错,能否麻烦您轻轻动一动手指,点个免费的赞呢?同时,也恳请您关注一下我。这对我真的很重要
1,测评模型:
deepseek-r1:8b:DeepSeek是由中国杭州的DeepSeek公司开发的人工智能模型。专注于数学、代码、自然语言推理任务,性能对标OpenAI o1正式版。
qwen2.5:7b:Qwen2.5是阿里云通义千问团队研发的模型,于2025年1月发布了不同版本,在技术上有诸多亮点,在一些基准测试中表现出色。
2.测评思路:
从 文本质量,推理计算,等方面,提出9个可以提给大模型的问题。综合测试大模型的能力,每个问题满分10分,由某个不愿透露姓名的满血官方大模型来进行打分,最后看总分。
3.开始测评:
1.文本质量和内容生成:
1.写一首表现农村生活的的五言绝句。
deepseek-r1:8b:5分
农村生活
时光静好似长庚,
田园风光伴鸡鸣。
勤劳身影映牛耕,
归心似箭恋田畴。
优点:
画面感营造不错:诗中描绘出了田园生活中宁静的时光、伴随着鸡鸣的田园风光、牛耕的场景以及对田园的眷恋,能让读者在脑海中构建出相应的画面。
情感表达清晰:传达出对田园生活的喜爱和眷恋之情,情感真挚。
不足:
格律问题:不符合五言绝句的字数要求,格式错误。
qwen2.5:7b:7分
乡村乐章
田间日正长,老汉锄禾忙。
稚子追蝴蝶,笑声满村庄。
优点方面:
意境生动:短短二十字,勾勒出一幅充满生活气息的乡村田园劳作与童趣画面,让人能直观感受到乡村生活的质朴与美好。
语言平实:用词通俗易懂,自然流畅,符合五言绝句简洁明快的特点,能让读者轻松理解诗中所描绘的场景。
不足的地方:
韵律方面:整体没有严格遵循传统五言绝句的平仄格律要求 。
深度稍欠:在情感和内涵的挖掘上不够深入,更多是简单呈现场景。
2.在翻译中,“信达雅”原则里的“达”具体指什么?
deepseek-r1:8b:0分
错误理解问题意思,导致回答内容与问题不符
qwen2.5:7b:8分
正确回答问题,但详细程度略有不足
3.在小说创作中,高质量文本在情节构建方面通常具备哪些特征?
deepseek-r1:8b:9分
内容全面且具体,涵盖了情节构建的多个重要方面,并且每个要点都列举了经典作品作为示例,让观点更具说服力和可读性。
对各个特征的阐述较为清晰,逻辑连贯,能让读者很好地理解高质量情节构建应具备的要素。
可提升点:
对于一些特征的解读深度可以再加强,例如“多线叙事”除了指出是线索交织,还可以简单说说这种交织对故事的独特作用等。
部分要点之间的关联性可以进一步梳理,比如连贯性与节奏感和其他一些要点之间其实存在一定逻辑关联,若能适当提及会让整个回答更具整体性。
qwen2.5:7b:7分
优点:
较为系统地概括了高质量文本在情节构建方面的关键特征,从故事线、情节发展、冲突、角色等多个维度进行阐述,内容比较全面。对每个特征的解释简洁明了,能够让读者快速理解要点,具有一定的实用性和指导性。
不足:
缺乏具体的作品实例支撑观点,说服力稍显不足。部分特征之间的区分度不是特别明显,例如“合理的情节发展”和“结构紧凑合理”在一定程度上有概念的重叠,内容的层次感可以进一步优化。对每个特征的阐述深度有限,更多是点到为止,没有深入挖掘其内涵和作用机制 。
4.我想要成为一名著名的的youtube博主,我应该问你什么问题可以帮助我快速达到目标。
deepseek-r1:8b:9分
这个回答非常全面且细致,从多个维度深入探讨了成为YouTube博主过程中的各种关键问题,为提问者提供了一个系统梳理自身情况和规划发展路径的框架。整体可以给到9分。它不仅涵盖了内容创作、推广、目标设定等多个重要板块,还引导提问者对自身优势、劣势、目标受众等进行深度思考。不过在某些问题的回答上可以结合一些实际案例来增强可读性和指导性,因此扣掉1分。
qwen2.5:7b:8分
这个回答整体很不错,比较全面且具有实用性,我可以给到8分。它从多个关键维度给出了较为具体且可行的建议,涵盖了频道从创立到运营过程中的诸多重要方面,对想要成为YouTube博主的人有很大的指导意义。不过在某些方面还可以更深入展开讲讲,所以扣掉2分。
5.如果我想要全面深入地了解大模型相关的知识,我应该问你什么问题。
deepseek-r1:8b:10分
优点方面:
- 内容丰富且有深度,从基本概念到核心技术,再到应用场景、技术挑战、伦理与社会影响以及未来趋势,各个板块都有针对性很强的问题,能引导对大模型进行全面深入的探索。特别是在核心技术部分,对Transformer架构、自注意力机制等关键技术的具体原理进行追问,有助于深入理解大模型。
- 结合了不同的应用领域和社会层面的思考,像探讨在教育领域的应用前景、对学术研究和行业的影响等,让问题更具现实意义和前瞻性。
不足之处在于:相对来说在工具资源、具体开发平台和数据集获取等实操性方面涉及较少。
整体而言,是一份高质量的关于大模型知识探索的问题清单。
qwen2.5:7b:9分
这些问题涵盖得非常全面且深入,如果打分的话可以给到9分。这些问题从基础知识、技术原理、应用场景、性能优化、伦理挑战、未来趋势以及工具资源、案例分析等多个维度,几乎把大模型相关知识的各个重要方面都涉及到了,能很好地帮助提问者全面深入了解大模型知识。扣掉的1分是觉得可以适当增加一些关于大模型与行业生态关系等方面的问题,进一步拓宽问题的覆盖面 。
6.windows家庭版中没有haper-v,请你帮助我在windows家庭版中安装它,任何方法都可以
有可能是没有联网,这个问题两个大模型都是没有用处的官方回答,因此,均为0分
2.数学计算及推理能力:
1.一座有80万人口的城市,人们的出行需求均匀分布。如果平均每2000人会在高峰时段同时有乘坐出租车出行的需求,且每辆出租车一次只能搭载一名乘客,高峰时段出租车平均每小时能接送4趟乘客,那么这个城市高峰时段至少需要多少辆出租车来满足出行需求?
正确答案:100辆
deepseek-r1:8b:2分
过程正确,但是在计算的时候出现错误,导致结果错误
qwen2.5:7b:10分
2.有一个3L的水桶和一个5L的水桶,怎么做可以获得四升水。
qwen2.5:7b:10分
deepseek-r1:8b:1分
洋洋洒洒几十字,但是没有分析出来
说实话,测到这里,我其实也不相信这是deepseek-r1的真实数学水平,但最后一个问题,deepseek-r1展示了它真正的水平
3.在一个神秘的数字王国里,有一种特殊的运算规则。已知对于任意的三个整数 a、 b、 c存在这样的运算关系:
当 a + b + c 为偶数时,a ★ b ★ c = ((a + b + c) ^ 2) / 4 ;
当 a + b + c 为奇数时,a ★ b ★ c = ((a + b + c) ^ 2 - 1) / 4 。
现在有三个整数 x = 2023,y = 2024,z = 2025,求 (x ★ y ★ z) ★ (x ★ y ★ z) ★ (x ★ y ★ z) 的值 (答案:36×1518⁴或47789362880784)
deepseek-r1:8b:10分
这个计算过程和结果是正确的。整个推导过程逻辑清晰。
qwen2.5:7b:0分
完全错误
总结:
deepseek-r1:8b 总分:46分
qwen2.5:7b 总分:59分
虽然qwen2.5的分数高,但是它的能力确实不一定比deepseek-r1强,例如在最后一个问题,它完全没有分析出来,只能说,两个大模型各自擅长的内容不同,有的擅长内容创作,有的擅长数学推理,对于广大用户而言,最为关键的一点在于,要根据自身的实际需求和使用场景,审慎地选择适合自己的大模型来使用。只有这样,才能充分发挥大模型的优势,让其更好地服务于我们的学习、工作和生活,实现人工智能技术与个人需求的完美契合。
如果您觉得我的创作还不错,能否麻烦您轻轻动一动手指,点个免费的赞呢?同时,也恳请您关注一下我。这对我真的很重要
如果您有不同的意见,欢迎把你的想法留在评论区
更多推荐
所有评论(0)