Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

开源大模型竞争，现在是Llama、Qwen和DeepSeek三足鼎立之势，谁优谁劣，我们直接上榜单！

easyllm

1324人浏览 · 2025-03-25 12:00:48

easyllm · 2025-03-25 12:00:48 发布

在当前的开源大模型竞争中，Llama、Qwen和DeepSeek形成了三足鼎立之势。Llama曾是开源领域的标杆，但随着Qwen和DeepSeek的崛起，其地位受到挑战。Qwen凭借多样化开源尺寸和强劲性能，在Hugging Face等开源社区中超越Llama，成为新的标杆。DeepSeek则通过基于Qwen等模型的蒸馏技术，快速构建高性能模型，推动开源生态发展。

谁优谁劣，我们直接上榜单！

评测维度：医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

排名	大模型	机构	输出价格（元/M tok）	总分
1	DeepSeek-R1	深度求索	16.0	87.34
2	qwq-32b-preview	阿里巴巴	7.0	77.85
3	DeepSeek-R1-Distill-Qwen-32B	深度求索	1.3	77.49
4	qwen2.5-72b-instruct	阿里巴巴	12.0	76.89
5	qwen2.5-32b-instruct	阿里巴巴	7.0	75.85
6	deepseek-chat-v3	深度求索	8.0	75.03
7	qwen2.5-14b-instruct	阿里巴巴	6.0	72.77
8	DeepSeek-R1-Distill-Qwen-14B	深度求索	0.7	72.77
9	DeepSeek-R1-Distill-Llama-70B	深度求索	4.1	71.37
10	internlm2_5-20b-chat	上海人工智能实验室	1.0	70.20
11	Meta-Llama-3.1-405B-Instruct	Meta	21.0	69.55
12	qwen2.5-7b-instruct	阿里巴巴	2.0	69.11
13	internlm2_5-7b-chat	上海人工智能实验室	0.4	68.05
14	Llama-3.3-70B-Instruct	meta	4.1	67.86
15	glm-4-9b-chat	智谱AI	0.6	67.12
16	qwen2.5-math-72b-instruct	阿里巴巴	12.0	67.03
17	Llama-3.3-70B-Instruct-fp8	meta	2.2	66.86
18	Llama-3.1-Nemotron-70B-Instruct-fp8	nvidia	2.2	66.67
19	Yi-1.5-34B-Chat	零一万物	1.3	66.64
20	Hermes-3-Llama-3.1-405B	NousResearch	5.8	65.65
21	phi-4	微软	1.0	62.92
22	qwen2.5-3b-instruct	阿里巴巴	0.0	58.64
23	Yi-1.5-9B-Chat	零一万物	0.4	58.56
24	gemma-2-27b-it	Google	1.3	57.89
25	gemma-2-9b-it	Google	0.6	55.41
26	Llama-3.1-8B-Instruct	Meta	0.4	53.03
27	DeepSeek-R1-Distill-Qwen-7B	深度求索	0.4	52.42
28	DeepSeek-R1-Distill-Llama-8B	深度求索	0.4	52.35
29	Mistral-Nemo-Instruct-2407	Mistral	0.6	52.24
30	Meta-Llama-3.1-8B-Instruct-fp8	meta	0.4	51.39
31	qwen2.5-1.5b-instruct	阿里巴巴	0.0	49.03
32	Llama-3.2-3B-Instruct	meta	0.2	46.76
33	Mistral-7B-Instruct-v0.3	Mistral	0.4	42.19
34	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	0.1	40.43
35	qwen2.5-0.5b-instruct	阿里巴巴	0.0	37.89
36	Llama-3.2-1B-Instruct	meta	0.2	36.59

各细分领域完整评测结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

大模型评测EasyLLM，目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测（详情可回顾以下链接👇），接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评，看看谁是各个垂直领域的最强打工人！宝子们看好哪个大模型可以在哪些岗位胜任最强牛马？或者想评测大模型的哪方面能力？评论区留言，有求必测，一一公布结果！有评测样本、有图有真相！

关于大模型评测EasyLLM：

最全——全球最全大模型产品评测平台，已囊括~200个大模型
最新——日更各个大模型各项能力指标评测，输出排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！

目前已囊括195个大模型，覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型，以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

一文了解 MCP Server：AI 工具与外部世界的桥梁

MCP 是统一大模型与外部工具交互的通用协议MCP Server 是你构建智能体最重要的“外挂工具”集合借助 MCP Inspector、现成 MCP Server 仓库、主流 SDK（Python、Node）可以快速接入与开发DeepSeek、Cursor、Claude 等主流平台全面支持 MCP，让 Agent 构建进入标准化时代MCP 不是新技术，而是一种“标准 + 工具”的革命。它正在推动