DeepSeek到底强在哪?众说纷纭,也没说明白!这个评测,有评测方法、有评测题集、有数据、有图、有真相!我愿称之为最全、最具像的评测,所有大模型评测得分一目了然!您请看……

先上图!

(ps:蓝色-开源模型;绿色-闭源模型)

图片

  • 完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

一、评测结论:19项能力(见下文列举)评测,DeepSeek综合得分第一,吊打国内外开、闭源大模型,遥遥领先!

二、评测维度:19项能力综合评测

分类能力、信息抽取、阅读理解、数据分析、指令遵从、算术运算、初中数学、符号推理BBH、代词理解CLUEWSC、诗词匹配CCPM、公务员考试kaogong、律师资格考试JEC-QA、高考、常识推理、文本蕴含、成语理解、情感分析、演绎推理、C3中文阅读理解等19项。

三、评测方法:

结合以上能力维度,梳理题集,让大模型各显其能进行回答,根据结果进行打分。

四、参评各个大模型综合评测概况:

类别

大模型

总分

排名

开源

DeepSeek-R1

90.6

1

商用

qwen2.5-max(new)

87.7

2

商用

hunyuan-turbo

87.1

3

商用

gemini-2.0-flash-thinking-exp-01-21(new)

86.7

4

商用

GLM-4-Plus

86.5

5

商用

ERNIE-4.0

86.3

6

商用

hunyuan-large

86.3

7

商用

360gpt2-pro

86.1

8

商用

360gpt-pro

85.8

9

开源

DeepSeek-R1-Distill-Qwen-32B

85.7

10

商用

gemini-2.0-pro-exp-02-05

85.6

11

商用

xunfei-4.0Ultra

85.6

12

商用

Claude-3.5-Sonnet

85.5

13

开源

qwen2.5-72b-instruct

85.2

14

商用

MiniMax-Text-01(new)

85

15

商用

o1-mini

85

16

商用

qwen-max

84.9

17

商用

ERNIE-4.0-Turbo-8K

84.8

18

商用

Doubao-pro-32k

84.7

19

商用

SenseChat-5

84.7

20

开源

deepseek-chat-v3

84.6

21

商用

abab7-chat-preview

84.5

22

商用

gemini-2.0-flash-exp

84.5

23

商用

gemini-2.0-flash-001

84.3

24

商用

360gpt-turbo

84.3

25

商用

SenseChat-5-1202(new)

84

26

商用

yi-lightning

83.8

27

商用

ERNIE-3.5-8K

83.5

28

商用

360gpt2-o1

83.5

29

商用

step-1-8k

83.4

30

开源

qwen2.5-32b-instruct

83.4

31

商用

xunfei-spark-max

83.4

32

开源

DeepSeek-R1-Distill-Qwen-14B

83.3

33

商用

gemini-1.5-pro

83.3

34

开源

qwq-32b-preview

83.3

35

商用

gpt-4o

83

36

开源

DeepSeek-R1-Distill-Llama-70B

82.6

37

商用

qwen-plus

82.5

38

商用

mistral-large

82.2

39

商用

gemini-2.0-flash-lite-preview-02-05

82.1

40

商用

GLM-Zero-Preview(new)

82.1

41

开源

qwen2.5-14b-instruct

81.8

42

商用

Baichuan4-Turbo

81.6

43

商用

qwen-long

81.5

44

开源

Llama-3.3-70B-Instruct

80.8

45

商用

gemini-1.5-flash

80.8

46

开源

Llama-3.3-70B-Instruct-fp8

80.2

47

开源

Hermes-3-Llama-3.1-405B

80.2

48

开源

phi-4

80.1

49

商用

xunfei-spark-pro

79.8

50

商用

GLM-4-AirX

79.8

51

开源

Meta-Llama-3.1-405B-Instruct

79.7

52

商用

SenseChat-Turbo-1202(new)

79.4

53

商用

GLM-4-Long

79.2

54

商用

o3-mini

78.9

55

商用

qwen-turbo

78.9

56

商用

GLM-4-Air

78.9

57

开源

qwen2.5-math-72b-instruct

78.7

58

开源

Llama-3.1-Nemotron-70B-Instruct-fp8

78.7

59

商用

moonshot-v1-8k

78.5

60

开源

qwen2.5-7b-instruct

78.4

61

商用

ERNIE-Speed-Pro-128K(new)

78.4

62

开源

internlm2_5-20b-chat

78.4

63

商用

GLM-4-FlashX(new)

78.3

64

商用

abab6.5s-chat

78.2

65

商用

Baichuan4-Air

78

66

商用

gpt-4o-mini

77.4

67

商用

hunyuan-standard

77.2

68

商用

SenseChat-Turbo

77

69

开源

internlm2_5-7b-chat

76.8

70

商用

GLM-4-Flash

76.7

71

开源

glm-4-9b-chat

76.4

72

开源

Yi-1.5-34B-Chat

76.2

73

商用

step-1-flash

76.1

74

商用

mistral-small

75.7

75

商用

ERNIE-Lite-Pro-128K(new)

74.7

76

商用

Baichuan4

74.7

77

开源

gemma-2-27b-it

74.3

78

开源

WizardLM-2-8x22B

73.6

79

商用

gemini-1.5-flash-8b

73

80

商用

SenseChat-v4

72.5

81

商用

ERNIE-Lite-8K(new)

72.4

82

开源

gemma-2-9b-it

71.7

83

商用

ERNIE-Speed-8K

71.2

84

开源

qwen2.5-3b-instruct

70.9

85

开源

Mistral-Nemo-Instruct-2407

70.7

86

开源

DeepSeek-R1-Distill-Llama-8B

70.3

87

商用

ministral-8b

70

88

开源

DeepSeek-R1-Distill-Qwen-7B

69.5

89

开源

Yi-1.5-9B-Chat

68.2

90

商用

Doubao-lite-32k

68.2

91

开源

Meta-Llama-3.1-8B-Instruct-fp8

67.6

92

开源

Llama-3.1-8B-Instruct

67.6

93

开源

Llama-3.2-3B-Instruct

63.4

94

开源

Mixtral-8x7B-Instruct-v0.1

61.8

95

商用

ministral-3b

60.3

96

开源

Mistral-7B-Instruct-v0.3

56.9

97

开源

qwen2.5-1.5b-instruct

56.7

98

开源

DeepSeek-R1-Distill-Qwen-1.5B

56.7

99

开源

Llama-3.2-1B-Instruct

48.9

100

开源

qwen2.5-0.5b-instruct

45

101

商用

ERNIE-Tiny-8K(new)

44.4

102

商用

o1-preview

/

103

  • 完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


五、部分能力维度各模型评测得分结果:

1.【学科知识】能力评测,DeepSeek得分第一!

图片

  • 评测题集:历年高考题,共1500多道,绝大部分为选择题,少部分为填空题。

(1)高考生物评测样本举例:

已知(1)酶、(2)抗体、(3)激素、(4)糖原、(5)脂肪、(6)核酸都是人体内有重要作用的物质。下列说法正确的 是:(A)(1)(2)(3)都是由氨基酸通过肽键连接而成的(B)(3)(4)(5)都是生物大分子, 都以碳链为骨架(C)(1)(2)(6)都是由含氮的单体连接成的多聚体(D)(4)(5)(6)都是人体细胞内的主要能源物质

(2)高考化学评测样本举例:

以下是中华民族为人类文明进步做出巨大贡献的几个事例, 运用化学知识对其 进行的分析不合理的是 ( )(A)四千余年前用谷物酿造出酒和酯, 酿造过程中只发生水解反应(B)商代后期铸造出工艺精湛的后(司)母戊鼎, 该鼎属于铜合金制品(C)汉代烧制出“明如镜、声如磬”的瓷器,其主要原料为黏土(D)屠呦呦用乙醚从青蒿中提取出对治疗疘疾有特效的青高素, 该过程包括萃取操作

(3)高考语文评测样本举例:

下列各句中,没有语病的一句是(A)根据本报和部分出版机构联合开展的调查显示,儿童的阅读启蒙集中在1~2岁之间,并且阅读时长是随着年龄的增长而增加的。(B)为了培养学生关心他人的美德,我们学校决定组织开展义工服务活动,三个月内要求每名学生完成20个小时的义工服务。(C)在互联网时代,各领域发展都需要速度更快、成本更低的信息网络,网络提速降费能够推动“互联网+”快速发展和企业广泛收益。(D)面对经济全球化带来的机遇和挑战,正确的选择是,充分利用一切机遇,合作一切挑战,引导好经济全球化走向。

(4)高考地理评测样本举例:

农业生产中地膜覆盖对土壤理化性状的主要作用是()①保持土壤温度 ②减少水肥流失 ③增加土壤厚度 ④改善土壤质地(A)①②(B)①④(C)②③(D)③④

(5)高考历史评测样本举例:

“一万年农业,五千年文明,两千年大一统”指的是(A)中华文明(B)埃及文明(C)印度文明(D)希腊文明

(6)高考数学评测样本举例:​​​​​​​

已知 a ∈ R, (1+a*i)i=3+i, (i为虚数单位), 则 a=()(A)-1 (B)1 (C)-3 (D)3

(7)高考物理评测样本举例:​​​​​​​

20 世纪 60 年代, 我国以国防为主的尖端科技取得了突破性的发展。1964 年, 我国第一颗原子弹试爆成 功; 1967 年, 我国第一颗氢弹试爆成功。关于原子弹和氢弹, 下列说法正确的是( )(A)原子弹和氢弹都是根据核裂变原理研制的(B)原子弹和氢弹都是根据核聚变原理研制的(C)原子弹是根据核裂变原理研制的,氢弹是根据核聚变原理研制的(D)原子弹是根据核聚变原理研制的,氢弹是根据核裂变原理研制的
  • 完整评测结果及其它能力维度评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

2.【推理】符号推理BBH能力评测,DeepSeek得分第一!

lin

  • 评测题集:学术界最常用的符号推理评测集,包含23个子任务。

     评测样本举例:

Task description: Answer questions about which times certain events could have occurred.Q: Today, Emily went to the museum. Between what times could they have gone?We know that:Emily woke up at 1pm.Elizabeth saw Emily reading at the library from 2pm to 4pm.Jessica saw Emily watching a movie at the theater from 4pm to 5pm.Leslie saw Emily waiting at the airport from 5pm to 6pm.William saw Emily buying clothes at the mall from 6pm to 7pm.The museum was closed after 7pm.Between what times could Emily have gone to the museum?Options:(A) 1pm to 2pm(B) 6pm to 7pm(C) 5pm to 6pm(D) 2pm to 4pm

3.篇幅有限,完整的19项能力评测结果,请转至以下链接。

  • 完整评测结果及其它能力维度评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐