在当前的开源大模型竞争中,Llama、Qwen和DeepSeek形成了三足鼎立之势。Llama曾是开源领域的标杆,但随着Qwen和DeepSeek的崛起,其地位受到挑战。Qwen凭借多样化开源尺寸和强劲性能,在Hugging Face等开源社区中超越Llama,成为新的标杆。DeepSeek则通过基于Qwen等模型的蒸馏技术,快速构建高性能模型,推动开源生态发展。

谁优谁劣,我们直接上榜单!

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

排名

大模型

机构

输出价格(元/M tok)

总分

DeepSeek-R1

深度求索

16.0 

87.34 

qwq-32b-preview

阿里巴巴

7.0 

77.85 

DeepSeek-R1-Distill-Qwen-32B

深度求索

1.3 

77.49 

qwen2.5-72b-instruct

阿里巴巴

12.0 

76.89 

qwen2.5-32b-instruct

阿里巴巴

7.0 

75.85 

deepseek-chat-v3

深度求索

8.0 

75.03 

qwen2.5-14b-instruct

阿里巴巴

6.0 

72.77 

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.7 

72.77 

DeepSeek-R1-Distill-Llama-70B

深度求索

4.1 

71.37 

10 

internlm2_5-20b-chat

上海人工智能实验室

1.0 

70.20 

11 

Meta-Llama-3.1-405B-Instruct

Meta

21.0 

69.55 

12 

qwen2.5-7b-instruct

阿里巴巴

2.0 

69.11 

13 

internlm2_5-7b-chat

上海人工智能实验室

0.4 

68.05 

14 

Llama-3.3-70B-Instruct

meta

4.1 

67.86 

15 

glm-4-9b-chat

智谱AI

0.6 

67.12 

16 

qwen2.5-math-72b-instruct

阿里巴巴

12.0 

67.03 

17 

Llama-3.3-70B-Instruct-fp8

meta

2.2 

66.86 

18 

Llama-3.1-Nemotron-70B-Instruct-fp8

nvidia

2.2 

66.67 

19 

Yi-1.5-34B-Chat

零一万物

1.3 

66.64 

20 

Hermes-3-Llama-3.1-405B

NousResearch

5.8 

65.65 

21 

phi-4

微软

1.0 

62.92 

22 

qwen2.5-3b-instruct

阿里巴巴

0.0 

58.64 

23 

Yi-1.5-9B-Chat

零一万物

0.4 

58.56 

24 

gemma-2-27b-it

Google

1.3 

57.89 

25 

gemma-2-9b-it

Google

0.6 

55.41 

26 

Llama-3.1-8B-Instruct

Meta

0.4 

53.03 

27 

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.4 

52.42 

28 

DeepSeek-R1-Distill-Llama-8B

深度求索

0.4 

52.35 

29 

Mistral-Nemo-Instruct-2407

Mistral

0.6 

52.24 

30 

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.4 

51.39 

31 

qwen2.5-1.5b-instruct

阿里巴巴

0.0 

49.03 

32 

Llama-3.2-3B-Instruct

meta

0.2 

46.76 

33 

Mistral-7B-Instruct-v0.3

Mistral

0.4 

42.19 

34 

DeepSeek-R1-Distill-Qwen-1.5B

深度求索

0.1 

40.43 

35 

qwen2.5-0.5b-instruct

阿里巴巴

0.0 

37.89 

36 

Llama-3.2-1B-Instruct

meta

0.2 

36.59 

各细分领域完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有图有真相!

图片


  • 关于大模型评测EasyLLM:

  1. 最全——全球最全大模型产品评测平台,已囊括~200个大模型

  2. 最新——日更各个大模型各项能力指标评测,输出排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

目前已囊括195个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐