国内主流模型厂商

【AI&游戏】专栏-直达

本章主要介绍国内主流的大语言模型厂商及其代表性产品,包括阿里巴巴、深度求索、字节跳动、智谱AI、百度、月之暗面、零一万物和MiniMax等公司的核心模型。近年来,国内AI大模型发展迅猛,各大厂商纷纷推出具有竞争力的产品,在中文理解、多模态能力、推理能力等方面取得了显著进步。这些模型不仅满足了国内用户的需求,也在国际舞台上展现出强大的竞争力。本文将深入分析各厂商的技术特点、产品优势和适用场景,帮助开发者和企业更好地选择适合自身需求的AI模型。

一、国内AI模型市场概览

1.1 市场发展历程

国内AI大模型市场经历了从起步到快速发展的过程。2020年前后,国内开始涌现出一批专注于大模型研发的AI公司。2023年,随着ChatGPT的横空出世,国内AI模型迎来了爆发式增长,各大互联网巨头和创业公司纷纷推出自己的大模型产品。2024年至2025年,国内模型在多项基准测试中达到国际先进水平,特别是在中文理解和推理能力方面展现出独特优势。2026年,国内模型竞争进入新阶段,各厂商开始在Agent能力、多模态理解、长上下文处理等细分领域展开差异化竞争。

1.2 技术路线分布

国内AI厂商在技术路线上呈现出多元化特点。从架构角度看,大多数厂商采用了Transformer架构和稀疏专家混合(MoE)相结合的设计,以在保持模型性能的同时控制计算成本。从训练方法看,国内模型普遍采用了预训练+指令微调+人类反馈对齐(RLHF)的技术路线。从应用场景看,各厂商根据自身优势形成了差异化的产品定位,如阿里巴巴专注中文生态、月之暗面专注长文本、MiniMax专注多模态等。

二、阿里巴巴(通义千问)

2.1 公司背景与技术实力

阿里巴巴 作为国内领先的云计算和人工智能公司,在大模型领域投入巨大。阿里云百炼平台为开发者提供了完善的大模型服务,包括模型API调用、微调训练、应用部署等全链路服务。阿里巴巴的技术团队在自然语言处理领域有着深厚的积累,通义千问系列模型在开源社区享有很高声誉。

2.2 Qwen系列模型详解

Qwen3.5系列(2026年2月发布)是当前最受关注的国产开源模型之一。该系列采用混合注意力机制和稀疏MoE设计,支持201种语言和方言,展现了强大的多语言能力。旗舰版本Qwen3.5-397B-A17B(激活17B)在推理、编程、智能体能力方面可比肩万亿参数模型,长上下文任务解码吞吐量达Qwen3-Max的8.6倍,这一技术突破使得高效处理超长文档成为可能。

Qwen3.5系列提供了丰富的模型规格选择,包括:

模型规格 参数总量 激活参数 上下文长度 适用场景
Qwen3.5-397B-A17B 397B 17B 128K 顶级性能,本地部署
Qwen3.5-Plus - - 128K API调用首选
Qwen3.5-32B 32B 32B 128K 单卡推理
Qwen3.5-14B 14B 14B 128K 个人开发者
Qwen3.5-8B 8B 8B 128K 轻量部署
Qwen3.5-4B 4B 4B 32K 嵌入式设备

Qwen3-Max 是闭源旗舰API模型,性能对标GPT-5早期版本,适合对质量有高要求的企业应用。

Qwen3-VL 是视觉语言模型,支持GUI操作、视觉编程、超长视频理解(最长2小时),在多模态理解方面表现出色。

Qwen3-Omni 是原生端到端全模态模型,激活仅3B,代表了端侧部署的最新技术方向。

Qwen3-Coder/Plus 是编程专项版本,SWE-bench得分69.6分,在代码生成方面达到了国际先进水平。

2.3 生态优势与适用场景

Qwen系列的核心优势在于其完整的开源生态和丰富的产品矩阵。从0.8B到397B的完整参数谱系,使得开发者可以根据硬件条件选择合适的模型规模。Qwen还推出了法律、代码、医疗等垂直领域专项版本,满足行业特定需求。阿里云百炼平台提供了稳定可靠的API服务,是国内企业使用大模型的首选平台之一。

推荐适用场景:中文内容处理、企业级应用开发、开源项目集成、需要稳定API服务的企业用户。

三、深度求索(DeepSeek)

3.1 公司背景与技术特色

深度求索(DeepSeek) 是2025年AI领域最受瞩目的国产厂商之一,专注于通用人工智能的研发。公司成立时间虽短,但凭借其技术创新和开源策略迅速崛起。DeepSeek的核心技术优势在于其独特的训练方法和高效的模型架构,在保持高性能的同时大幅降低了训练成本。

3.2 DeepSeek系列模型

DeepSeek-R1 是最新推理模型,通过纯强化学习涌现出的推理能力,在数学与代码任务中表现极佳,直逼OpenAI o1水平。更令人惊叹的是,其训练成本仅为GPT-4的1/27,这一突破性进展证明了通过创新的训练方法可以显著降低大模型的训练门槛。DeepSeek-R1在推理过程中能够展示清晰的思考路径,适合需要理解AI推理过程的教育和科研场景。

DeepSeek-V3 采用稀疏专家(MoE)架构,总参数达670B,活跃参数约37B,在16B参数下实现了接近百亿模型的性能,推理吞吐量比同类产品领先45%。这种高效架构设计使得DeepSeek-V3在消费级硬件上也能流畅运行。

模型 参数规模 上下文 API价格(输入/输出) 核心优势
DeepSeek-V3 670B/37B 64K ¥1/¥2 超高性价比
DeepSeek-R1 670B/37B 64K ¥4/¥16 顶级推理能力
DeepSeek-Coder-V2 - 64K - 编程专项

DeepSeek-Coder-V2 是代码专项模型,编程能力强劲,支持多种编程语言,在HumanEval基准测试中得分85.3。

DeepSeek-VL2 是多模态版本,具备图像理解能力,可以处理文档分析、图表理解等任务。

3.3 成本优势与市场定位

DeepSeek系列的一大优势是国内可直连访问,API价格灵活,对国内开发者非常友好。其极低的API价格(输入仅¥1/百万Token)使其成为成本敏感型应用的首选。DeepSeek的开源策略也赢得了开发者的广泛支持,多个量化版本和本地部署方案可供选择。

推荐适用场景:成本敏感型项目、需要推理能力的应用、编程开发辅助、需要在本地部署的场景。

四、字节跳动(豆包)

4.1 公司背景与生态优势

字节跳动 旗下的豆包系列是国内C端流量最大的AI产品之一。作为拥有抖音、今日头条、飞书等超级应用的科技巨头,字节跳动在AI产品的用户洞察和场景落地方面具有天然优势。豆包与字节系产品的深度整合,使其能够快速触达海量用户,形成良性的数据飞轮。

4.2 豆包系列模型

豆包Seed 2.0 是最新版本,定位为多模态智能体生态,具备强大的多模态理解能力。该模型在字节内部的多个产品中得到了广泛应用验证,表现出色。

豆包Pro 面向企业级应用的版本,能力更强,支持更复杂的任务处理。提供了完善的API服务和企业级支持。

模型 特点 适用场景
豆包Seed 2.0 多模态智能体 C端产品集成
豆包Pro 企业级能力 B端应用
豆包1.5 Pro 中文优化 内容创作
豆包·视觉理解模型 图像分析 视觉相关任务
豆包·语音合成模型 语音生成 语音交互

豆包·视觉理解模型 专注于图像理解和分析,能够准确描述图片内容、识别图表信息。

豆包·语音合成模型 支持高质量语音生成,能够生成自然流畅的语音输出。

4.3 生态整合与商业化

豆包的特点是中文体验好,与字节系产品(抖音、飞书等)深度整合。豆包在多模态理解方面表现突出,支持图像、语音等多种输入形式。字节跳动拥有国内最大的C端用户基础,豆包的智能体生态是其核心竞争力。2026年,豆包持续推进商业化进程,企业版豆包Pro正在获得越来越多企业的认可。

推荐适用场景:需要与字节系产品集成的应用、面向C端的AI产品、多模态内容创作、需要大规模用户基础的场景。

五、智谱AI

5.1 公司发展历程

智谱AI(2025年更名为Z.AI) 是国内AI创业公司的代表,由清华大学技术团队创立,在大模型领域有着深厚的技术积累。2026年1月,智谱AI在港股上市,成为国内首家上市的大模型公司,标志着国内AI产业进入新的发展阶段。智谱AI的产品策略是同时布局开源社区和商业API,形成了独特的市场定位。

5.2 GLM系列模型

GLM-5(2026年2月发布)是最新旗舰模型,744B总参数/40B激活参数,28.5T预训练数据,200K上下文。性能对齐Claude Opus 4.5,在编程能力上实现对齐Claude Opus 4.5。已适配华为昇腾等国产芯片,开源版本已发布(MIT许可证),展现了开放的生态态度。

模型 参数规模 上下文 特点
GLM-5 744B/40B 200K 旗舰性能,对标Claude
GLM-4.7 - 200K Agent优化
GLM-4-9B-Chat 9B 128K 开源对话模型
GLM-4V - 128K 多模态理解

GLM-4.7 前代版本,面向Agentic Coding场景强化了编码能力、长程任务规划与工具协同。

GLM-4-9B-Chat 是开源对话模型,适合本地部署和二次开发,在GitHub上拥有大量star。

GLM-4V 是多模态版本,支持图像理解和分析。

5.3 开源生态与商业化路径

智谱的特点是同时拥有开源版本和闭源API版本,开发者可以根据需求灵活选择。智谱的Agent平台提供了完整的智能体开发工具链,在工程化方面具有优势。GLM系列在中文理解和代码生成方面表现均衡,是国内开发者的热门选择之一。智谱AI还积极布局企业市场,提供了面向企业的定制化服务。

推荐适用场景:需要开源模型进行二次开发的企业、需要完整Agent开发工具的团队、需要在国产芯片上部署的应用。

六、百度(文心一言)

6.1 百度AI技术积淀

百度 是国内最早布局人工智能的互联网公司之一,在自然语言处理、搜索技术、知识图谱等领域有着超过十年的技术积累。文心一言是百度推出的大语言模型品牌,依托百度搜索的海量数据和算法能力,在中文理解方面具有独特优势。

6.2 ERNIE系列模型

ERNIE 5.0(2026年1月发布)是最新旗舰版本,2.4万亿参数,原生全模态统一建模技术,支持文本、图像、音频、视频的输入与输出。LMArena文本榜国内第一(1460分)、全球第八,数学能力全球第二。超稀疏MoE架构,激活参数仅约3%,实现了性能与效率的平衡。

模型 参数 上下文 核心优势
ERNIE 5.0 2.4T 128K 原生全模态
ERNIE-4.5-VL 28B 128K 视觉理解
文心大模型 X1.1 - - 推理优化

ERNIE-4.5-VL-28B-A3B-Thinking 是开源视觉语言模型,具备领先的文档与图表理解能力,理科与文科综合推理表现优异。

文心大模型 X1.1 是推理模型,事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。

6.3 搜索增强与行业应用

百度的核心竞争力在于搜索增强和知识图谱,文心一言与百度搜索深度整合,可以获取实时网络信息。在多轮对话管理方面,文心一言支持30轮以上对话上下文保持。ERNIE还具备情感识别能力,情感识别准确率达92%,特别适合营销内容生成和客服场景。百度智能云提供了完善的企业服务,是国内政企客户的首选之一。

推荐适用场景:需要实时信息的应用、搜索增强场景、客服和营销内容生成、需要知识图谱支持的专业领域。

七、月之暗面(Moonshot AI)

7.1 公司创立与产品理念

月之暗面(Moonshot AI) 是由前字节跳动技术团队成员创立的AI公司,专注于长上下文大模型的研发。公司的核心理念是打造"个人AI助手",帮助用户处理日常生活和工作中的信息处理需求。2026年,凭借Kimi Claw智能体产品,月之暗面估值飙升,成为国内最受关注的AI创业公司之一。

7.2 Kimi系列模型

Kimi K2.5(2026年1月发布)是最新旗舰模型,1T参数(激活32B),原生多模态架构。支持Agent Swarm(智能体群)技术,可同时调度100个分身并行处理任务。200万Token超长上下文是Kimi的核心竞争力,SWE-Bench Verified得分76.8%,编程能力超越GPT-5.2和Gemini 3 Pro。

模型 参数 上下文 核心特点
Kimi K2.5 1T/32B 200万 超长上下文
Kimi K1.5 - 128K 前代版本
Kimi-VL - 128K 多模态

Kimi提供四种模式:K2.5快速适合快速问答,K2.5思考适合复杂推理,K2.5 Agent适合任务执行,K2.5 Agent集群适合大规模并行处理。

7.3 长文本处理与应用场景

Kimi的设计理念是打造"个人AI助手",文档解析能力是其亮点,可以快速提取PDF、网页等文档的核心信息。200万Token的超长上下文使其在处理长篇文档、书籍摘要、代码库分析等场景下具有独特优势。月之暗面在Agent能力上表现突出,Kimi Claw产品1月底上线后20天收入超过2025年全年总和,展现了强劲的商业化能力。

推荐适用场景:需要处理超长文档的场景、需要进行多文档研究的场景、个人AI助手应用、需要Agent能力的企业应用。

八、零一万物

8.1 公司背景与发展历程

零一万物 是由李开复创办的AI公司,专注于开源模型和垂直领域应用。2025年,公司战略转型全面聚焦ToB市场,推出万智企业多智能体平台,标志着从技术导向向商业导向的转变。零一万物在开源社区具有较高影响力,其Yi系列模型获得了全球开发者的关注。

8.2 Yi系列模型

Yi-Lightning 是最新旗舰模型,全球SOTA混合专家语言模型,在多项基准测试中表现优异。

模型 参数 特点
Yi-Lightning - 旗舰模型
Yi-Large - 高性能
Yi-34B/Chat 34B 开源社区热门
Yi-6B/Chat 6B 轻量部署
Yi-VL - 多模态

Yi-34B/Chat 是开源对话模型,34B参数规模,在开源社区具有较高关注度。

Yi-6B/Chat 是轻量版本,适合本地部署和移动端应用。

8.3 企业级服务

零一万物的模型在多语言能力方面表现均衡,已开源多个版本供社区使用。万智企业大模型一站式平台升级至2.5版,采用"代码先行、模型驱动"架构,支持企业快速拼装复用智能体模块。2026年1月发布的万智2.5企业多智能体平台,支持"平替市场部"、"平替HR"等复杂工作流场景,可替代十人团队完成协作任务。

推荐适用场景:需要多语言能力的应用、企业级智能体平台、开源模型定制开发、需要复杂工作流自动化的企业。

九、MiniMax

9.1 公司技术特色

MiniMax 是国内专注于多模态大模型的公司,在视频理解、语音合成等多媒体领域具有独特技术优势。公司的核心产品线包括语言模型、语音合成和视频生成三大方向,形成了完整的多模态AI能力矩阵。

9.2 MiniMax系列模型

MiniMax M2.5(2026年2月发布)是最新旗舰模型,2290亿参数(MoE架构,激活100B),在编程、智能体任务、搜索等生产力场景达到SOTA水平。SWE-Bench Verified得分80.2%,与Claude Opus 4.6相当。

模型 参数 特点
MiniMax M2.5 2290B/100B 生产力SOTA
MiniMax M2-Her - 情感理解
MiniMax Speech 2.6 - 语音合成
MiniMax Hailuo 2.3 - 视频生成

MiniMax M2.5是首个"无限使用"的前沿模型,每小时运行成本仅需1美元(100 TPS),大幅降低了AI应用的使用门槛。支持SGLang、vLLM、Transformers等部署方式,为开发者提供了灵活的部署选项。

9.3 多模态能力与应用

MiniMax的模型在长文本处理和多模态生成方面具有技术优势,M2.5在Agent能力方面表现突出,特别适合需要复杂任务处理和多模态能力的应用场景。MiniMax Speech系列语音合成模型能够生成高质量的自然语音,MiniMax Hailuo系列视频生成模型则能够根据文本描述生成视频内容。

推荐适用场景:多模态内容创作、语音交互应用、视频生成、需要Agent能力的复杂任务。

十、阶跃星辰(StepFun)

10.1 公司定位与技术方向

阶跃星辰(StepFun) 是国内AI初创公司,专注于多模态大模型研发。公司虽然成立时间不长,但在视觉理解和推理能力方面展现出强大的技术实力。阶跃星辰的策略是聚焦于特定领域的技术突破,形成差异化竞争优势。

10.2 Step系列模型

Step-1V(2024年发布)是最新多模态模型,具备强大的图像理解和推理能力。模型在视觉问答、图像描述、图表分析等任务中表现出色。

模型 特点
Step-1V 多模态理解
Step-1 长上下文
Step-2 推理优化

Step-1 是基础语言模型,支持长上下文处理。

Step-2 是推理优化版本,在数学和逻辑推理方面表现突出。

10.3 定价与市场定位

阶跃星辰的API定价约$0.1-0.5/M tokens,性价比较高。公司的特点是专注于多模态理解和技术研发,模型在图像分析、视觉推理等任务中表现优异,适合需要多模态能力的应用场景。

推荐适用场景:需要视觉理解的应用、图像分析任务、需要高性价比API服务的场景。

十一、厂商选择指南

11.1 按需求场景选择

需求场景 推荐厂商 核心优势
中文内容处理 阿里巴巴、百度 中文理解最佳
编程开发辅助 DeepSeek、智谱AI 代码能力突出
超长文档处理 月之暗面 200万Token上下文
多模态内容创作 MiniMax、字节跳动 音视频能力
Agent智能体开发 MiniMax、智谱AI 工具调用能力
成本敏感项目 DeepSeek、阶跃星辰 价格最低
企业级稳定服务 阿里巴巴、百度 服务保障
开源定制开发 智谱AI、零一万物 开源生态

11.2 选择考虑因素

在选择AI模型厂商时,需要综合考虑以下因素:

技术能力:模型在目标任务上的表现,直接影响应用效果。

API定价:直接影响项目的运营成本,需要根据预期调用量进行估算。

访问便利性:国内直连还是需要代理,影响使用体验和稳定性。

服务水平:SLA保障、技术支持、文档完善程度。

生态丰富度:开源社区、第三方工具、量化版本等。

合规安全:数据安全、内容合规、资质认证等。


(欢迎点赞留言探讨,更多人加入进来能更加完善这个探索的过程,🙏)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐