【关键发现】
​​1.国产优势​​:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型
​​2.专精特长生​​:腾讯在医疗、金融领域领先
openAI/Google在推理计算和行政领域强势
深度求索在语言理解表现优异
​​3.性价比标杆​​:免费模型:GLM系列两款(医疗/金融场景适用)
极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语言任务


【评测模型】国内外主流推理类大模型
【评测集】​​推理与数学计算​​、语言与指令遵从、医疗等八大领域最新题集,低污染度,大模型“闭卷”考试实评;官网链接查看详细:https://nonelinear.com
【评测方式】官方API
【更多评测资讯】https://nonelinear.com

一、总分排名前五的模型
​​Doubao-1.5-thinking-pro(new)​​(排名1)
​​hunyuan-turbos-20250226​​(排名2)
​​DeepSeek-R1​​(排名3)
​​Qwen3-235B-A22B(new)​​(排名4)
​​ERNIE-X1-32K-Preview​​(排名5)

二、最低价格前五的模型
​​GLM-Z1-Flash(new)​​(0.0元/Mtokens)
​​GLM-Z1-9B-0414(new)​​(0.0元/Mtokens)
​​GLM-Z1-FlashX(new)​​(0.1元/Mtokens)
​​DeepSeek-R1-Distill-Qwen-1.5B​​(0.14元/Mtokens)
​​DeepSeek-R1-Distill-Qwen-7B​​(0.35元/Mtokens)

三、国内外厂商占比(总模型数36)
1.国内:33个,占比91.7%;国外:3个,占比8.3%
2.代表厂商;腾讯、阿里、百度、深度求索、智谱AI;Google、openAI

四、各细分领域得分前三模型(豆包多细分领域霸榜)
1. ​​医疗领域​​
hunyuan-turbos-20250226(91.0,腾讯)
Doubao-1.5-thinking-pro(new)(88.0,豆包)
hunyuan-turbos-20250313(86.9,腾讯)


2. ​​教育领域​​
Qwen3-235B-A22B(new)(89.7,阿里巴巴)
Doubao-1.5-thinking-pro(new)(92.6,豆包)
DeepSeek-R1(88.0,深度求索)


3. ​​金融领域​​
hunyuan-turbos-20250226(85.2,腾讯)
DeepSeek-R1(82.9,深度求索)
hunyuan-t1-20250321(81.2,腾讯)


4. ​​法律领域​​
Doubao-1.5-thinking-pro(new)(83.3,豆包)
hunyuan-turbos-20250226(82.6,腾讯)
ERNIE-X1-32K-Preview(77.8,百度)


5. ​​行政公务领域​​
o4-mini(new)(90.0,openAI)
gemini-2.5-pro-preview-03-25(90.0,Google)
Qwen3-235B-A22B(new)(90.0,阿里巴巴)
​​并列第一​​(三款模型均得90分)

6. ​​心理健康领域​​
hunyuan-turbos-20250313(72.9,腾讯)
Doubao-1.5-thinking-pro(new)(71.2,豆包)
hunyuan-t1-20250321(69.2,腾讯)


7. ​​推理与数学计算领域​​
o4-mini(new)(92.5,openAI)
gemini-2.5-pro-preview-03-25(86.7,Google)
Doubao-1.5-thinking-pro(new)(86.7,豆包)


8. ​​语言与指令遵从领域​​
o4-mini(new)(82.1,openAI)
gemini-2.5-pro-preview-03-25(80.6,Google)
DeepSeek-R1(83.4,深度求索)

****具体细分领域评分详细

法律.png
教育.png
金融.png
推理与数学计算.png
心理健康.png
语言与指令遵从.png
医疗.png
行政公务.png


【评测集、各个模型badcase、更多评测资讯】直达官网获取➡️https://nonelinear.com

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐