知乎上业界玩家做的这个大模型真实评测排名,还有一定参考价值。转发给大家。

1 参赛选手

本次新增模型:
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223

2 前情提要

本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。

对于V3题库的说明,此处不赘述,新读者请参见:https://zhuanlan.zhihu.com/p/695717926
但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。

3 题目和打分

本次增加Hard题1道,此处列出所有题目大纲和核心考点
1、程序改错:代码理解
2、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算
3、旅游路径规划:长文本理解,工具调用能力
4、【Medium】公元纪年推算天干纪年:计算能力,规则理解
5、【Medium】阅读代码输出结果:代码理解,代码推导
6、【Medium】计算有时间重叠下最少会议室数量:计算能力
7、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解
8、【Medium】提供上下文的代码补全:代码理解,指令遵守
9、【Medium】密文解码:模拟计算
10、【Medium】棋盘上的图形:图形想象,二维记忆能力
11、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力
12、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆
13、【Medium】正则匹配:推理推演正则匹配结果
14、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循
15、【Medium】岛屿面积计算:DFS非编程推算
16、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求
17、【Medium】第2题进阶版,增加输出要求,增加题目细节
18、【Medium】第6题变体,增加会议室数量,会议人数条件约束
19、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系
20、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力
21、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱
22、【Hard】压缩算法模拟:规则理解,文本计算
23、【Hard】按提示猜单词:利用规则推导,排除干扰
24、【Hard】给定热量的沙拉搭配:数学计算,数学规则
25、【Hard】二维字符迷宫:求入口到出口路径
26、【Hard】模拟桌游:提供相互影响的复杂规则,推导4位玩家的结局状态
27、【Hard】几何计算:多条线段求交点:直线方程,几何理解【New】

其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则
1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
2、要求推导过程必须正确,猜对的答案不得分。
3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。

4 成绩解析

1)O1:基本通关V3题库,除了个别题目的个别细化陷阱点未识别到导致扣分,其他题目均满分,包括对大模型不友好的逐字符问题,满分率80%。O1由于隐藏了思考过程,回答结果相当简略,大部分问题直接给出答案,和简单的对答案的解析(并不是过程)。几道和字符相关的问题,如15岛屿面积,O1并没有像其他所有模型那样直接数字符个数,而是有一点人的直觉,知道要从二维视角全盘审查。25迷宫问题,先前模型基本卡在第一个岔路口,得分极低,O1是首次全对,但没有给推导过程。
由于Hard题偏少,目前的测试并不能反映O1的极限素质,还有待后续的进一步加测。

2)Gemini 2.0 Flash和thinking-exp:Flash作为轻量模型,确实离之前Exp系列有一些差距。个别难题Exp能稳定做对的,Flash依然拿不到分。但其他问题仅比Exp多一些小错误,落后幅度很小。并且在需要逐步推导的题目中,比Exp有更明显的思维连模式。
而思维链版本的thinking模型就比较厉害了,直接追平O1 mini,并且输出速度也要比mini快。二者对比的话,O1 mini在处理逐字符问题上更得心应手,flash对编程问题得分稍高。而计算,逐步推导这类思维链优势项目,flash和O1 mini基本都是满分。

3)DeepSeek V3:DeepSeek在10号更新一版V2.5之后预告V3,但没想到仅过了2周V3就来了,小作坊下料就是猛。V3官方宣称能力在4o之上,实测确实如此。二者相比,V3有部分题目思维链模式发挥优势,得分比4o高。这部分题目V3和之前R1 Lite的推导流程如出一辙。而余下题目,4o靠更低失误率扳回不少分。不难推测,普通用户实际使用,或者用简单问题考察,可能发现4o更好,这也符合预期。
V3还是保留了许多2.5的硬伤,编程能力下降还未恢复,R1 Lite做的对的数学题,V3只能对一半,可见V3并不是R1的完整版。可以预见下一个版本有望打进前三。

4)Qwen系列:本次参与评测的有来个模型,先说备受关注的QwQ。QwQ总分和gemini flash相近,二者对比,QwQ在部分字符处理,计算,多步推导相关问题上优势明显,flash错误率极高。而剩余的同样需要多步推导,但难度更高的问题上,QwQ明显力不从心,表现甚至不如flash。而QwQ似乎没训练过编程题目,相关问题得分低下。总体来看QwQ实验验证性质偏多,还难以用于线上生产。
plus系列相比自家max系列,迭代更频繁,价格也更低,但实力整体和max接近。二者在多数题目上回答近似,得分近似,互有优劣,但相差不大。plus在细节处理上更好,max在需要更多步推理的问题上表现更好。
值得注意的是,plus最后一次更新1220版,整体劣于1127。

5)豆包:长期以来,豆包凭借运营推广,和综合服务多样性获得了较多的用户口碑。但豆包的模型能力和用户口碑并不匹配,硬实力只在第二梯队末尾。豆包Pro 1215更新,模型能力提升巨大,总分来到了57分,进入第一梯队。官方宣称和4o能力相当,对比来看,豆包在大部分问题上稍弱于4o,表现在细节疏漏较多,复杂指令要求遵循不到位。但也有少数题目,豆包凭借微弱的长文本理解优势,得分稍高。用户体验应该是不如4o,但相差已经不远。

5 附录 - 历史成绩

历史成绩只展示百分值,具备可比性。

6 全年

去年的全年总结里( https://zhuanlan.zhihu.com/p/673886532)有写到,彼时国内能超越ChatGPT3.5的模型还只有文心4.0和通义2.1两个,而今年底主流厂商基本都完成了对3.5的超越,并且有厂商已深入到GPT4和同代的O1区间。来自北美的大模型厂商领先时间从去年11-12个月,被缩短到3-4个月。在语言大模型以外的领域,像文生图,文生视频,国内也不断涌现出新的势力,与北美头部也有一战之力。
另一方面我们也不能忽视北美厂商的先发优势依然强大,创新能力锋锐不减。2025年将是淘汰赛的一年,预计国内头部在保持追赶的同时,中尾部跟不上的玩家将逐渐被淘汰出局。竞争依然残酷。
为了应对明年头部纷纷向思维链和融合模式转化,目前V3题库也需要进一步扩充,计划将Hard题型占比提升到50%以上,重点补充复杂计算、人类直觉、图形推理三类题目。希望笔者的评测在25年依然能帮到各位读者,管中窥豹,从另一个侧面了解大模型进化。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐