【大模型实测横评】DeepSeek到底强在哪？这个评测一目了然！

实测deepseek通用能力，有评测方法、有评测题集、有数据、有图、有真相！我愿称之为最全、最具像的评测，所有大模型评测得分一目了然！

easyllm

1579人浏览 · 2025-03-20 15:59:00

easyllm · 2025-03-20 15:59:00 发布

DeepSeek到底强在哪？众说纷纭，也没说明白！这个评测，有评测方法、有评测题集、有数据、有图、有真相！我愿称之为最全、最具像的评测，所有大模型评测得分一目了然！您请看……

先上图！

（ps：蓝色-开源模型；绿色-闭源模型）

完整评测结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

一、评测结论：19项能力（见下文列举）评测，DeepSeek综合得分第一，吊打国内外开、闭源大模型，遥遥领先！

二、评测维度：19项能力综合评测

分类能力、信息抽取、阅读理解、数据分析、指令遵从、算术运算、初中数学、符号推理BBH、代词理解CLUEWSC、诗词匹配CCPM、公务员考试kaogong、律师资格考试JEC-QA、高考、常识推理、文本蕴含、成语理解、情感分析、演绎推理、C3中文阅读理解等19项。

三、评测方法：

结合以上能力维度，梳理题集，让大模型各显其能进行回答，根据结果进行打分。

四、参评各个大模型综合评测概况：

类别	大模型	总分	排名
开源	DeepSeek-R1	90.6	1
商用	qwen2.5-max(new)	87.7	2
商用	hunyuan-turbo	87.1	3
商用	gemini-2.0-flash-thinking-exp-01-21(new)	86.7	4
商用	GLM-4-Plus	86.5	5
商用	ERNIE-4.0	86.3	6
商用	hunyuan-large	86.3	7
商用	360gpt2-pro	86.1	8
商用	360gpt-pro	85.8	9
开源	DeepSeek-R1-Distill-Qwen-32B	85.7	10
商用	gemini-2.0-pro-exp-02-05	85.6	11
商用	xunfei-4.0Ultra	85.6	12
商用	Claude-3.5-Sonnet	85.5	13
开源	qwen2.5-72b-instruct	85.2	14
商用	MiniMax-Text-01(new)	85	15
商用	o1-mini	85	16
商用	qwen-max	84.9	17
商用	ERNIE-4.0-Turbo-8K	84.8	18
商用	Doubao-pro-32k	84.7	19
商用	SenseChat-5	84.7	20
开源	deepseek-chat-v3	84.6	21
商用	abab7-chat-preview	84.5	22
商用	gemini-2.0-flash-exp	84.5	23
商用	gemini-2.0-flash-001	84.3	24
商用	360gpt-turbo	84.3	25
商用	SenseChat-5-1202(new)	84	26
商用	yi-lightning	83.8	27
商用	ERNIE-3.5-8K	83.5	28
商用	360gpt2-o1	83.5	29
商用	step-1-8k	83.4	30
开源	qwen2.5-32b-instruct	83.4	31
商用	xunfei-spark-max	83.4	32
开源	DeepSeek-R1-Distill-Qwen-14B	83.3	33
商用	gemini-1.5-pro	83.3	34
开源	qwq-32b-preview	83.3	35
商用	gpt-4o	83	36
开源	DeepSeek-R1-Distill-Llama-70B	82.6	37
商用	qwen-plus	82.5	38
商用	mistral-large	82.2	39
商用	gemini-2.0-flash-lite-preview-02-05	82.1	40
商用	GLM-Zero-Preview(new)	82.1	41
开源	qwen2.5-14b-instruct	81.8	42
商用	Baichuan4-Turbo	81.6	43
商用	qwen-long	81.5	44
开源	Llama-3.3-70B-Instruct	80.8	45
商用	gemini-1.5-flash	80.8	46
开源	Llama-3.3-70B-Instruct-fp8	80.2	47
开源	Hermes-3-Llama-3.1-405B	80.2	48
开源	phi-4	80.1	49
商用	xunfei-spark-pro	79.8	50
商用	GLM-4-AirX	79.8	51
开源	Meta-Llama-3.1-405B-Instruct	79.7	52
商用	SenseChat-Turbo-1202(new)	79.4	53
商用	GLM-4-Long	79.2	54
商用	o3-mini	78.9	55
商用	qwen-turbo	78.9	56
商用	GLM-4-Air	78.9	57
开源	qwen2.5-math-72b-instruct	78.7	58
开源	Llama-3.1-Nemotron-70B-Instruct-fp8	78.7	59
商用	moonshot-v1-8k	78.5	60
开源	qwen2.5-7b-instruct	78.4	61
商用	ERNIE-Speed-Pro-128K(new)	78.4	62
开源	internlm2_5-20b-chat	78.4	63
商用	GLM-4-FlashX(new)	78.3	64
商用	abab6.5s-chat	78.2	65
商用	Baichuan4-Air	78	66
商用	gpt-4o-mini	77.4	67
商用	hunyuan-standard	77.2	68
商用	SenseChat-Turbo	77	69
开源	internlm2_5-7b-chat	76.8	70
商用	GLM-4-Flash	76.7	71
开源	glm-4-9b-chat	76.4	72
开源	Yi-1.5-34B-Chat	76.2	73
商用	step-1-flash	76.1	74
商用	mistral-small	75.7	75
商用	ERNIE-Lite-Pro-128K(new)	74.7	76
商用	Baichuan4	74.7	77
开源	gemma-2-27b-it	74.3	78
开源	WizardLM-2-8x22B	73.6	79
商用	gemini-1.5-flash-8b	73	80
商用	SenseChat-v4	72.5	81
商用	ERNIE-Lite-8K(new)	72.4	82
开源	gemma-2-9b-it	71.7	83
商用	ERNIE-Speed-8K	71.2	84
开源	qwen2.5-3b-instruct	70.9	85
开源	Mistral-Nemo-Instruct-2407	70.7	86
开源	DeepSeek-R1-Distill-Llama-8B	70.3	87
商用	ministral-8b	70	88
开源	DeepSeek-R1-Distill-Qwen-7B	69.5	89
开源	Yi-1.5-9B-Chat	68.2	90
商用	Doubao-lite-32k	68.2	91
开源	Meta-Llama-3.1-8B-Instruct-fp8	67.6	92
开源	Llama-3.1-8B-Instruct	67.6	93
开源	Llama-3.2-3B-Instruct	63.4	94
开源	Mixtral-8x7B-Instruct-v0.1	61.8	95
商用	ministral-3b	60.3	96
开源	Mistral-7B-Instruct-v0.3	56.9	97
开源	qwen2.5-1.5b-instruct	56.7	98
开源	DeepSeek-R1-Distill-Qwen-1.5B	56.7	99
开源	Llama-3.2-1B-Instruct	48.9	100
开源	qwen2.5-0.5b-instruct	45	101
商用	ERNIE-Tiny-8K(new)	44.4	102
商用	o1-preview	/	103

完整评测结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

五、部分能力维度各模型评测得分结果：

1.【学科知识】能力评测,DeepSeek得分第一！

评测题集：历年高考题，共1500多道，绝大部分为选择题，少部分为填空题。

（1）高考生物评测样本举例：

已知(1)酶、(2)抗体、(3)激素、(4)糖原、(5)脂肪、(6)核酸都是人体内有重要作用的物质。下列说法正确的 是：(A)(1)(2)(3)都是由氨基酸通过肽键连接而成的(B)(3)(4)(5)都是生物大分子, 都以碳链为骨架(C)(1)(2)(6)都是由含氮的单体连接成的多聚体(D)(4)(5)(6)都是人体细胞内的主要能源物质

（2）高考化学评测样本举例：

以下是中华民族为人类文明进步做出巨大贡献的几个事例, 运用化学知识对其 进行的分析不合理的是 ( )(A)四千余年前用谷物酿造出酒和酯, 酿造过程中只发生水解反应(B)商代后期铸造出工艺精湛的后（司）母戊鼎, 该鼎属于铜合金制品(C)汉代烧制出“明如镜、声如磬”的瓷器，其主要原料为黏土(D)屠呦呦用乙醚从青蒿中提取出对治疗疘疾有特效的青高素, 该过程包括萃取操作

（3）高考语文评测样本举例：

下列各句中，没有语病的一句是(A)根据本报和部分出版机构联合开展的调查显示，儿童的阅读启蒙集中在1~2岁之间，并且阅读时长是随着年龄的增长而增加的。(B)为了培养学生关心他人的美德，我们学校决定组织开展义工服务活动，三个月内要求每名学生完成20个小时的义工服务。(C)在互联网时代，各领域发展都需要速度更快、成本更低的信息网络，网络提速降费能够推动“互联网+”快速发展和企业广泛收益。(D)面对经济全球化带来的机遇和挑战，正确的选择是，充分利用一切机遇，合作一切挑战，引导好经济全球化走向。

（4）高考地理评测样本举例：

农业生产中地膜覆盖对土壤理化性状的主要作用是（）①保持土壤温度 ②减少水肥流失 ③增加土壤厚度 ④改善土壤质地(A)①②(B)①④(C)②③(D)③④

（5）高考历史评测样本举例：

“一万年农业，五千年文明，两千年大一统”指的是(A)中华文明(B)埃及文明(C)印度文明(D)希腊文明

（6）高考数学评测样本举例：

已知 a ∈ R, (1+a*i)i=3+i, (i为虚数单位), 则 a=()(A)-1 (B)1 (C)-3 (D)3

（7）高考物理评测样本举例：

20 世纪 60 年代, 我国以国防为主的尖端科技取得了突破性的发展。1964 年, 我国第一颗原子弹试爆成 功； 1967 年, 我国第一颗氢弹试爆成功。关于原子弹和氢弹, 下列说法正确的是（ ）(A)原子弹和氢弹都是根据核裂变原理研制的(B)原子弹和氢弹都是根据核聚变原理研制的(C)原子弹是根据核裂变原理研制的，氢弹是根据核聚变原理研制的(D)原子弹是根据核聚变原理研制的，氢弹是根据核裂变原理研制的

完整评测结果及其它能力维度评测结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

2.【推理】符号推理BBH能力评测，DeepSeek得分第一！

lin

评测题集：学术界最常用的符号推理评测集，包含23个子任务。

评测样本举例：

Task description: Answer questions about which times certain events could have occurred.Q: Today, Emily went to the museum. Between what times could they have gone?We know that:Emily woke up at 1pm.Elizabeth saw Emily reading at the library from 2pm to 4pm.Jessica saw Emily watching a movie at the theater from 4pm to 5pm.Leslie saw Emily waiting at the airport from 5pm to 6pm.William saw Emily buying clothes at the mall from 6pm to 7pm.The museum was closed after 7pm.Between what times could Emily have gone to the museum?Options:(A) 1pm to 2pm(B) 6pm to 7pm(C) 5pm to 6pm(D) 2pm to 4pm

3.篇幅有限，完整的19项能力评测结果，请转至以下链接。