
2025年2月LLM最新排名:Grok 3逆袭亮眼,Claude 3.7 Sonnet一鸣惊人!
先是 DeepSeek,成功利用“性价比”优势下沉到了世界的各个角落。然后,凭一己之力带动了整个行业的“疯狂内卷”。2月初,谷歌发布Gemini 2.0系列模型。2月中,马斯克旗下的 xAI 强势发布并免费开放Grok 3模型。2月末,沉寂了许久的 Anthropic 正式发布,全球首个混合架构模型。紧接着,2月的最后一天,OpenAI 发布了据说是史上最大、最强的非思考模型GPT-4.5。今天,
先是 DeepSeek,成功利用“性价比”优势下沉到了世界的各个角落。然后,凭一己之力带动了整个行业的“疯狂内卷”。
2月初,谷歌发布 Gemini 2.0
系列模型。
2月中,马斯克旗下的 xAI 强势发布并免费开放 Grok 3
模型。
2月末,沉寂了许久的 Anthropic 正式发布 Claude 3.7 Sonnet
,全球首个混合架构模型。
紧接着,2月的最后一天,OpenAI 发布了据说是史上最大、最强的非思考模型 GPT-4.5
。
今天,就用一文来记录这风云诡谲而又波澜壮阔的一个月。
本次的 AI 大模型排名参考 2 个常用的排行榜:LiveBench 和 LMSYS。
其中,LiveBench 更加纯粹和客观,提供无污染的测试数据和客观的评分。LiveBench 的测试题目每月更新,包括最新的数学竞赛、arXiv论文、新闻和数据集,涵盖数学、编码、推理、语言理解等多个方面,避免模型因训练数据污染而获得虚假高分。LiveBench 的特色在于题目有挑战性,即使顶级模型的准确率也普遍低于70%,分数较为可靠。
LMSYS 机器人竞技排行榜(Chatbot Arena)则更为主观,是一个基于用户偏好的动态排行榜,由加州大学伯克利分校开发。LMSYS 采用双模型匿名对战模式,用户提出问题并投票选出更好的回答,通过 Elo 评分系统排名,至今已收集超过270万次投票。这种评估方法注重模型在真实场景中的实用性,而非单纯的知识或智能测试。
接下来上2025年2月最新的 AI 大模型排名。
LiveBench
LiveBench 的特点是把非思考模型(如 GPT-4o
、DeepSeek-V3
)和推理模型(如 o1
、DeepSeek-R1
)放在一起比较,不搞特殊。
最新的排名中,Claude 3.7 Sonnet-Thinking
模式超越 o3-mini-high
、o1
、Grok 3-Thinking
以及 DeepSeek-R1
荣登榜首。
在非思考模型中,参数量最大的 GPT-4.5
当仁不让地夺得了第一名,甚至超过了谷歌的推理模型 Gemini 2.0 Flash Thinking
;接下来是 Claude 3.7 Sonnet
(非思考模式),Gemini 2.0 Pro
。
值得一提的是,阿里通义团队过年期间新推出的 Qwen 2.5-Max
模型赫然榜上有名,超过了早几个月发布的 DeepSeek-V3
。
LMSYS
LMSYS 排行榜共有 2 类排名:综合排名和 StyleCtrl 排名。综合排名直接按照模型所获得的综合分数来排;而 StyleCtrl(Style Control)排名则是在综合分数的基础上加入了风格控制,通过调整响应长度和 Markdown 格式使用等变量的影响,试图剔除这些非核心因素对排名的干扰,从而更纯粹地反映模型的实际能力。
我个人更倾向于查看 LMSYS 的 StyleCtrl 排名。
Upper-bound(UB)综合排名
在最新的综合排名里,GPT-4.5
挺惨的,头名的宝座屁股还没有坐热,就被 Grok 3
挤下去了。Grok 3
以1412的高分位列第一名;接着是 GPT-4.5
、Gemini 2.0 Pro
、GPT-4o
和 DeepSeek-R1
。
你会发现,无论是第一名的 Grok 3
还是第二名的 GPT-4.5
,它们有一个共同特点:模型“情商”高。LMSYS 里的分数本就是真实用户打出来的,“情商”高的模型得分高也是理所当然。
StyleCtrl(Style Control)排名
而加入了风格控制的考虑,即剔除了回答长度、回答的格式等影响因素后,排名又是另一番光景了。
第一名换成了 GPT-4.5
,Grok 3
跌到了第三名。另外值得一提的是,Claude 3.7 Sonnet
在 StyleCtrl 排行榜里的排名显著上升,排到了第五名。
DeepSeek-R1
则排到了第三名。考虑到 DeepSeek-R1
“白菜价”般的 API 价格,这模型质量和性价比简直是要拉满了。
我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4
但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!
❗️为什么你必须了解大模型?
1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍
2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰
3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI
(附深度求索BOSS招聘信息)
⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐
所有评论(0)