Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模
开源模型综合能力见:Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04。
以下为行政公务领域排行榜:
输出价格单位:(元/M tok)
|
排名 |
大模型 |
机构 |
输出价格 |
行政公务 |
|
1 |
DeepSeek-R1 |
深度求索 |
16 |
88.6 |
|
2 |
qwq-32b-preview |
阿里巴巴 |
7 |
78.0 |
|
3 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.1 |
77.5 |
|
4 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.3 |
76.2 |
|
5 |
deepseek-chat-v3 |
深度求索 |
8 |
72.7 |
|
6 |
qwen2.5-72b-instruct |
阿里巴巴 |
12 |
71.7 |
|
7 |
qwen2.5-32b-instruct |
阿里巴巴 |
7 |
70.0 |
|
8 |
DeepSeek-R1-Distill-Qwen-14B |
深度求索 |
0.7 |
68.0 |
|
9 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12 |
68.0 |
|
10 |
qwen2.5-14b-instruct |
阿里巴巴 |
6 |
67.0 |
|
11 |
internlm2_5-20b-chat |
上海人工智能实验室 |
1 |
66.4 |
|
12 |
Llama-3.3-70B-Instruct |
meta |
4.1 |
66.4 |
|
13 |
phi-4 |
微软 |
1 |
66.1 |
|
14 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.2 |
64.8 |
|
15 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.8 |
64.7 |
|
16 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21 |
64.2 |
|
17 |
glm-4-9b-chat |
智谱AI |
0.6 |
64.1 |
|
18 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.2 |
63.7 |
|
19 |
internlm2_5-7b-chat |
上海人工智能实验室 |
0.4 |
62.4 |
|
20 |
qwen2.5-7b-instruct |
阿里巴巴 |
2 |
59.6 |
|
21 |
Yi-1.5-34B-Chat |
零一万物 |
1.3 |
59.0 |
|
22 |
gemma-2-27b-it |
|
1.3 |
57.1 |
|
23 |
gemma-2-9b-it |
|
0.6 |
53.6 |
|
24 |
qwen2.5-3b-instruct |
阿里巴巴 |
0 |
51.3 |
|
25 |
DeepSeek-R1-Distill-Llama-8B |
深度求索 |
0.4 |
49.9 |
|
26 |
Llama-3.1-8B-Instruct |
Meta |
0.4 |
49.6 |
|
27 |
DeepSeek-R1-Distill-Qwen-7B |
深度求索 |
0.4 |
48.8 |
|
28 |
Yi-1.5-9B-Chat |
零一万物 |
0.4 |
45.3 |
|
29 |
Meta-Llama-3.1-8B-Instruct-fp8 |
meta |
0.4 |
43.2 |
|
30 |
Mistral-Nemo-Instruct-2407 |
Mistral |
0.6 |
42.4 |
|
31 |
Mistral-7B-Instruct-v0.3 |
Mistral |
0.4 |
40.9 |
|
32 |
qwen2.5-1.5b-instruct |
阿里巴巴 |
0 |
40.5 |
|
33 |
Llama-3.2-3B-Instruct |
meta |
0.2 |
37.8 |
|
34 |
Llama-3.2-1B-Instruct |
meta |
0.2 |
32.7 |
|
35 |
qwen2.5-0.5b-instruct |
阿里巴巴 |
0 |
30.7 |
|
36 |
DeepSeek-R1-Distill-Qwen-1.5B |
深度求索 |
0.1 |
26.4 |
行政公务领域目前囊括1个维度:公务员考试。
往期文章
教育行业|小学至高中3个阶段、9个学科、110个大模型应用实测!
那些免费的大模型API效果到底好不好?——CLiB大模型排行榜
关于大模型评测EasyLLM
-
最全——全球最全大模型产品评测平台,已囊括203个大模型
-
最新——月更各个大模型各项能力指标评测,输出排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!
-
错题本——百万级大模型错题本
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

更多推荐



所有评论(0)