AI基础设施竞争正经历三重变革:架构从云原生向Agent原生跃迁,推理成本从"奢侈品定价"迈向"日用品成本",竞争焦点从算力堆叠转向智能精炼效率。
一、架构重构:云原生→Agent原生
传统架构的四大瓶颈

过去十年,云原生架构统治了软件系统设计。容器化、微服务、自动扩缩容——这些最佳实践在传统互联网场景中行之有效。但当大模型从实验室走向生产线,特别是进入Agent时代后,传统架构暴露出四个根本性瓶颈。

请求-响应模型的局限性

传统Web服务的交互模式清晰:客户端发起请求,服务器处理,返回响应。这个模型假设每个请求独立、有明确终点。但Agent的工作模式截然不同:可能执行数小时甚至数天的长任务;需要在多个请求间保持状态;需要主动调用外部工具而非被动等待用户输入;执行过程可能产生分支,需动态决策。这些需求在请求-响应模型中根本无法优雅表达。

静态扩缩容的失效

云原生架构的扩缩容机制基于历史数据预测未来需求。但Agent负载模式高度动态:一个数据分析Agent可能在几分钟内从空闲变为满负载;不同Agent协作可能产生突发性资源需求;任务优先级可能动态调整。传统的"冷启动"式扩缩容响应太慢,无法满足需求。

安全边界的扩张

传统架构中安全边界清晰:请求进来,验证权限,执行操作,返回结果。但当Agent获得工具调用能力后,安全边界被极大扩展——Agent可能需要读写文件系统、发送邮件、访问外部API、操控数据库。任何一个环节被攻破都可能导致严重后果。

可观测性的断层

传统微服务的可观测性相对成熟:请求链路追踪、日志聚合、指标监控。但当任务被分解给多个Agent协同执行时,如何追踪跨多个Agent的复杂任务?如何理解Agent的决策过程?如何定位多Agent协作中的问题?现有日志和监控体系在Agent场景下几乎失效。
AI Token Factory四层架构

面对这些挑战,Omdia报告提出了AI Token Factory概念——一套根本性重构的架构范式。

┌─────────────────────────────────────────────────────┐
│ 智能应用层(Agent Apps) │
│ 垂直场景Agent │ 通用助手 │ 领域专家 │ 工作流编排 │
├─────────────────────────────────────────────────────┤
│ Agent编排层(MCP + A2A Protocols) │
│ 模型上下文协议 │ Agent间通信 │ 任务协调 │ 状态管理 │
├─────────────────────────────────────────────────────┤
│ 推理引擎层(智能精炼引擎) │
│ KV缓存优化 │ 长上下文 │ 投机解码 │ 连续批处理 │ 量化 │
├─────────────────────────────────────────────────────┤
│ 基础设施层(异构算力调度) │
│ GPU调度 │ 跨架构支持 │ 动态分片 │ 存储优化 │
└─────────────────────────────────────────────────────┘

基础设施层:异构算力的统一调度

Modern AI infrastructure faces significant challenges: from NVIDIA H100/H200 to domestic chips like Ascend 950, different hardware has different characteristics. The infrastructure layer needs实现:统一调度——抽象底层硬件差异为上层提供统一接口;动态分配——根据任务特征和硬件特征分配计算资源;跨架构支持——在不同硬件平台无缝运行。这不是简单的容器编排,而是智能算力分配。

推理引擎层:智能精炼的核心

推理引擎层是"智能精炼"发生的地方,除了基础模型推理,还包括:KV缓存优化,通过创新缓存机制将长上下文推理的内存占用降至传统方法的10%;投机解码,提前预测后续Token提升推理吞吐量;连续批处理,动态批处理推理请求提升GPU利用率;量化支持,支持FP16/INT8/INT4等量化方法平衡性能与成本。

Agent编排层:多Agent协作的基石

Agent编排层实现两个关键协议:MCP(Model Context Protocol)定义Agent如何与外部工具和数据源交互;A2A(Agent-to-Agent)定义Agent之间如何通信协作。这两个协议共同支撑复杂的多Agent协作模式。

智能应用层:场景化的Agent实现

顶层实现具体应用场景,包括领域专属Agent、工作流编排引擎等。
案例:商汤大装置的"智能精炼"实践

商汤科技大装置是"智能精炼"范式的典型案例,实现了多项关键突破:

算力利用率:传统GPU集群算力利用率通常在30%-50%之间,商汤大装置通过端到端优化提升至80%以上
异构混训效率:实现95%的异构混训效率,使用多芯片混合训练时系统效率仅下降5%
KV缓存优化:通过创新缓存机制将KV缓存内存占用降至传统方法的10%

这三个数据点共同指向一个结论:智能精炼不是营销概念,而是实实在在的工程成果,代表了从"有多少卡"到"能出多少Token"的系统性转变。
二、推理成本革命:从奢侈品到日用品
DeepSeek V4的技术突破

如果说架构重构是基础设施层面的变革,推理成本优化就是直接面向最终用户体验的关键突破。DeepSeek V4把"百万Token成本"拉到了令人震惊的低位:

100万字上下文,成本仅0.2元人民币。

对比同类产品:GPT-4 Turbo处理100万Token成本约70美元,Claude 3.5处理100万Token成本约75美元。差距是数百倍量级。

虽然不同模型能力范围有差异,这种对比不完全公平,但它揭示了核心趋势:推理成本正在经历革命性下降。
混合注意力机制:O(n²)→O(n)的突破

DeepSeek V4实现低成本的核心技术是混合注意力机制。

标准Transformer使用全注意力机制,每个Token都要与序列中所有其他Token计算注意力分数,计算复杂度为O(n²)。当上下文长度增加时,计算量和内存占用呈爆炸式增长。

混合注意力机制的核心思想:不是所有Token都需要关注所有其他Token。具体采用分段处理策略:

局部注意力:相邻Token之间使用全注意力,捕捉局部依赖关系
稀疏注意力:距离较远的Token之间使用稀疏注意力,只计算关键的跨距离依赖
记忆增强:引入外部记忆模块存储和检索长距离信息

数学原理并不复杂,但工程实现需要大量调优工作——关键是如何确定在什么位置使用局部注意力?稀疏程度如何设定?这些问题都需要通过大量实验来确定。
推理成本优化的工程路线图

从工程实践角度,推理成本优化是一个循序渐进的过程:

阶段一:模型量化(FP16 → INT8 → INT4)

量化是最直接的成本优化手段。通过将模型权重从高精度浮点数转换为低精度整数,可显著降低模型体积、内存占用和计算量(均减少3-4倍),代价通常是5%-15%的精度损失——在很多应用场景中可接受。

阶段二:投机解码(Speculative Decoding)

用小模型"猜测"接下来的几个Token,然后用大模型验证。如果猜测正确,直接使用这些Token,避免大模型的完整推理过程。在批量推理场景下效果尤为显著。

阶段三:连续批处理(Continuous Batching)

传统批处理需等待批次中所有请求完成后才能开始下一批次,长请求会阻塞短请求。连续批处理通过动态移出完成请求、加入新请求,实现更高的GPU利用率。

阶段四:KV缓存优化

最复杂的优化环节,涉及缓存策略、内存管理、分级存储等多个子系统协同。商汤大装置实现的10% KV缓存占用,就在这个阶段达成。
异构芯片适配的挑战

在国产化替代大背景下,昇腾、H20等非NVIDIA芯片使用越来越普遍。不同芯片之间的适配差异给开发者带来巨大挑战:

维度 NVIDIA H20 昇腾950
算子支持 完整 部分缺失
CUDA生态 成熟 需适配
性能调优 完善 需探索
成本 高 较低
供应稳定性 受限 稳定

对于企业,混合部署策略是当前最务实的选择:对性能敏感的核心任务优先使用NVIDIA芯片,对成本敏感的非核心任务使用国产芯片,通过统一调度层屏蔽底层差异实现资源最优分配。
三、竞争格局重塑:谁在焦虑,谁在狂欢
算力供应商的转型压力

过去几年,中国AI市场的显著特征是"算力军备竞赛"。从云厂商到创业公司,大家拼命囤积GPU。底层逻辑是:谁拥有更多GPU,谁就能支撑更多AI应用,谁就能赢得市场。

但Token经济时代,这个逻辑正在被颠覆。当客户开始用"每千Token成本"评估供应商时,单纯拥有更多GPU的厂商将面临越来越大压力——GPU再多,如果不能高效转化为Token产出,就意味着成本劣势。

算力供应商正在经历三种典型转型路径:

路径一:成为"智能精炼"服务商

代表是商汤大装置等平台型玩家。他们不满足于卖算力,而是提供从算力到Token的端到端服务,通过优化每个环节提升整体效率。

路径二:聚焦垂直场景

一些传统云厂商选择聚焦特定行业或场景,深耕特定领域的模型优化和应用开发,以场景理解和行业数据建立壁垒。

路径三:转型为Agent平台

少数有技术实力的厂商正在构建Agent开发平台,试图在Agent时代占据类似App Store的地位。
应用层的机会窗口

与算力层的转型压力形成对比,应用层正在迎来历史性机会窗口。当基础设施层竞争格局趋于稳定、成本持续下降后,应用层创新空间将被极大释放——这与云计算时代的发展轨迹如出一辙。

Agent应用开发的黄金时代正在到来。但这个机会窗口对技术能力提出了更高要求:

从"调用API"到"深度定制":简单API调用无法建立护城河,需要对模型能力有深入理解,针对场景进行深度优化
从"单点突破"到"系统设计":当Agent之间需要协作时,系统设计能力变得至关重要
从"功能开发"到"体验优化":Token成本直接影响用户体验,优化Token消耗成为产品竞争力的重要组成部分
开发者能力的结构性迁移

对于一线开发者,这场变革意味着能力要求的根本性转变。

传统技能树 新技能树
算法调参与优化 Agent编排与设计
模型部署与运维 多Agent系统架构
性能基准测试 Token成本分析
单模型开发 MCP/A2A协议应用

开发者需要具体掌握:MCP协议——理解如何让Agent与外部工具和数据源交互;A2A协议——理解Agent之间如何通信协作;智能体设计模式——了解常见Agent协作模式,如反应式、计划式、分层式等;成本敏感开发——在设计阶段就考虑Token成本,而非事后优化。

这不是说传统技能不再重要,而是新时代需要叠加新能力。对于已在AI领域的开发者,这是挑战也是机遇;对于准备进入AI领域的开发者,这是值得重点投入的方向。
结语:关键决策点

AI基础设施竞争逻辑正在经历三重变革:度量标准从Flops到Token,衡量AI系统价值的方式发生根本变化;架构从云原生到Agent原生,每层基础设施都需要重新设计;竞争焦点从算力堆叠到效率优化,智能精炼能力成为核心竞争力。

对于正在规划AI基础设施的架构师,建议:不要再用"有多少GPU"评估系统能力,而是问"能产出多少Token,成本是多少"。这个视角的转换,将帮助你在资源规划和架构设计上做出更正确的决策。

对于正在转型AI的开发者,建议:开始学习Agent相关技术和协议,了解多Agent系统设计模式。这将是未来十年最值得投资的技能方向。

核心数据速览

商汤大装置算力利用率:80%+(传统仅30%-50%)
异构混训效率:95%
KV缓存内存占用:降至传统方法的10%
DeepSeek V4成本:0.2元/100万Token(GPT-4约70美元)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐