在当前的开源大模型竞争中,Llama、Qwen和DeepSeek形成了三足鼎立之势。Llama曾是开源领域的标杆,但随着Qwen和DeepSeek的崛起,其地位受到挑战。Qwen凭借多样化开源尺寸和强劲性能,在Hugging Face等开源社区中超越Llama,成为新的标杆。DeepSeek则通过基于Qwen等模型的蒸馏技术,快速构建高性能模型,推动开源生态发展。

谁优谁劣,我们直接上榜单!

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

排名
大模型
机构
输出价格(元/M tok)
总分
1  
DeepSeek-R1
深度求索
16.0  
87.34  
2  
qwq-32b-preview
阿里巴巴
7.0  
77.85  
3  
DeepSeek-R1-Distill-Qwen-32B
深度求索
1.3  
77.49  
4  
qwen2.5-72b-instruct
阿里巴巴
12.0  
76.89  
5  
qwen2.5-32b-instruct
阿里巴巴
7.0  
75.85  
6  
deepseek-chat-v3
深度求索
8.0  
75.03  
7  
qwen2.5-14b-instruct
阿里巴巴
6.0  
72.77  
8  
DeepSeek-R1-Distill-Qwen-14B
深度求索
0.7  
72.77  
9  
DeepSeek-R1-Distill-Llama-70B
深度求索
4.1  
71.37  
10  
internlm2_5-20b-chat
上海人工智能实验室
1.0  
70.20  
11  
Meta-Llama-3.1-405B-Instruct
Meta
21.0  
69.55  
12  
qwen2.5-7b-instruct
阿里巴巴
2.0  
69.11  
13  
internlm2_5-7b-chat
上海人工智能实验室
0.4  
68.05  
14  
Llama-3.3-70B-Instruct
meta
4.1  
67.86  
15  
glm-4-9b-chat
智谱AI
0.6  
67.12  
16  
qwen2.5-math-72b-instruct
阿里巴巴
12.0  
67.03  
17  
Llama-3.3-70B-Instruct-fp8
meta
2.2  
66.86  
18  
Llama-3.1-Nemotron-70B-Instruct-fp8
nvidia
2.2  
66.67  
19  
Yi-1.5-34B-Chat
零一万物
1.3  
66.64  
20  
Hermes-3-Llama-3.1-405B
NousResearch
5.8  
65.65  
21  
phi-4
微软
1.0  
62.92  
22  
qwen2.5-3b-instruct
阿里巴巴
0.0  
58.64  
23  
Yi-1.5-9B-Chat
零一万物
0.4  
58.56  
24  
gemma-2-27b-it
Google
1.3  
57.89  
25  
gemma-2-9b-it
Google
0.6  
55.41  
26  
Llama-3.1-8B-Instruct
Meta
0.4  
53.03  
27  
DeepSeek-R1-Distill-Qwen-7B
深度求索
0.4  
52.42  
28  
DeepSeek-R1-Distill-Llama-8B
深度求索
0.4  
52.35  
29  
Mistral-Nemo-Instruct-2407
Mistral
0.6  
52.24  
30  
Meta-Llama-3.1-8B-Instruct-fp8
meta
0.4  
51.39  
31  
qwen2.5-1.5b-instruct
阿里巴巴
0.0  
49.03  
32  
Llama-3.2-3B-Instruct
meta
0.2  
46.76  
33  
Mistral-7B-Instruct-v0.3
Mistral
0.4  
42.19  
34  
DeepSeek-R1-Distill-Qwen-1.5B
深度求索
0.1  
40.43  
35  
qwen2.5-0.5b-instruct
阿里巴巴
0.0  
37.89  
36  
Llama-3.2-1B-Instruct
meta
0.2  
36.59  

各细分领域完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有图有真相!图片


  • 关于大模型评测EasyLLM:
  1. 最全——全球最全大模型产品评测平台,已囊括~200个大模型

  2. 最新——日更各个大模型各项能力指标评测,输出排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

目前已囊括195个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。


在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐