5月推理大模型榜单｜国产紧追，多个细分领域评分领先国外，字节航母（豆包）多项Top1!

【关键发现】1.国产优势：除行政公务（openAI/Google并列第一）和语言领域（openAI第一）外，其余6个领域第一名均为国产模型2.专精特长生：腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异3.性价比标杆：免费模型：GLM系列两款（医疗/金融场景适用）极致低价：DeepSeek蒸馏模型（＜0.5元）适合教育/语

easyllm

998人浏览 · 2025-06-05 09:00:00

easyllm · 2025-06-05 09:00:00 发布

【关键发现】
1.国产优势：除行政公务（openAI/Google并列第一）和语言领域（openAI第一）外，其余6个领域第一名均为国产模型
2.专精特长生：腾讯在医疗、金融领域领先
openAI/Google在推理计算和行政领域强势
深度求索在语言理解表现优异
3.性价比标杆：免费模型：GLM系列两款（医疗/金融场景适用）
极致低价：DeepSeek蒸馏模型（＜0.5元）适合教育/语言任务

【评测模型】国内外主流推理类大模型
【评测集】推理与数学计算、语言与指令遵从、医疗等八大领域最新题集，低污染度，大模型“闭卷”考试实评；官网链接查看详细：https://nonelinear.com
【评测方式】官方API
【更多评测资讯】https://nonelinear.com

一、总分排名前五的模型
Doubao-1.5-thinking-pro(new)（排名1）
hunyuan-turbos-20250226（排名2）
DeepSeek-R1（排名3）
Qwen3-235B-A22B(new)（排名4）
ERNIE-X1-32K-Preview（排名5）

二、最低价格前五的模型
GLM-Z1-Flash(new)（0.0元/Mtokens）
GLM-Z1-9B-0414(new)（0.0元/Mtokens）
GLM-Z1-FlashX(new)（0.1元/Mtokens）
DeepSeek-R1-Distill-Qwen-1.5B（0.14元/Mtokens）
DeepSeek-R1-Distill-Qwen-7B（0.35元/Mtokens）

三、国内外厂商占比（总模型数36）
1.国内：33个，占比91.7%;国外：3个，占比8.3%
2.代表厂商;腾讯、阿里、百度、深度求索、智谱AI;Google、openAI

四、各细分领域得分前三模型（豆包多细分领域霸榜）
1. 医疗领域
hunyuan-turbos-20250226（91.0，腾讯）
Doubao-1.5-thinking-pro(new)（88.0，豆包）
hunyuan-turbos-20250313（86.9，腾讯）

2. 教育领域
Qwen3-235B-A22B(new)（89.7，阿里巴巴）
Doubao-1.5-thinking-pro(new)（92.6，豆包）
DeepSeek-R1（88.0，深度求索）

3. 金融领域
hunyuan-turbos-20250226（85.2，腾讯）
DeepSeek-R1（82.9，深度求索）
hunyuan-t1-20250321（81.2，腾讯）

4. 法律领域
Doubao-1.5-thinking-pro(new)（83.3，豆包）
hunyuan-turbos-20250226（82.6，腾讯）
ERNIE-X1-32K-Preview（77.8，百度）

5. 行政公务领域
o4-mini(new)（90.0，openAI）
gemini-2.5-pro-preview-03-25（90.0，Google）
Qwen3-235B-A22B(new)（90.0，阿里巴巴）
并列第一（三款模型均得90分）

6. 心理健康领域
hunyuan-turbos-20250313（72.9，腾讯）
Doubao-1.5-thinking-pro(new)（71.2，豆包）
hunyuan-t1-20250321（69.2，腾讯）

7. 推理与数学计算领域
o4-mini(new)（92.5，openAI）
gemini-2.5-pro-preview-03-25（86.7，Google）
Doubao-1.5-thinking-pro(new)（86.7，豆包）

8. 语言与指令遵从领域
o4-mini(new)（82.1，openAI）
gemini-2.5-pro-preview-03-25（80.6，Google）
DeepSeek-R1（83.4，深度求索）

****具体细分领域评分详细

法律.png
教育.png
金融.png
推理与数学计算.png
心理健康.png
语言与指令遵从.png
医疗.png
行政公务.png

【评测集、各个模型badcase、更多评测资讯】直达官网获取➡️https://nonelinear.com

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

有哪些降重工具实测能同时让维普查重率和AIGC疑似率双双达标？价格、效果、安全全解析

DeepSeek技术社区

山东大学软件学院创新实训——MarketClaw（三）：飞书机器人接入DeepSeek，实现商品营销对话

DeepSeek技术社区

DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek技术社区

所有评论(0)

查看更多评论

easyllm

@easyllm

已为社区贡献20条内容

5月推理大模型榜单｜国产紧追，多个细分领域评分领先国外，字节航母（豆包）多项Top1!

easyllm

所有评论(0)

温馨提示：您尚未绑定手机号

easyllm