摘要

2026年5月11日,OpenAI正式推出Daybreak网络安全项目,直接对标Anthropic于4月启动的Project Glasswing + Claude Mythos。AI网络安全的竞争从模型能力比拼升级为平台生态争夺战。两大阵营分别代表了两种截然不同的安全范式:Anthropic侧重攻击发现(先发现漏洞、先修补),而OpenAI聚焦持续防御(安全左移、嵌入开发全流程)。

一、竞争格局:为什么是平台生态战?

网络安全AI市场的竞争逻辑正在发生根本性转变。2026年之前,厂商竞争焦点是模型基准测试分数——SWE-bench准确率、CTF通过率、漏洞检测召回率。2026年开始,竞争焦点转向工作流整合能力企业采用速度

原因有三:

  1. 模型能力趋同:Claude Mythos Preview在TLO测试中达到73%成功率(⚠️高置信度),但GPT-5.5系列和Claude Opus 4.6在大多数单项测试中差距已收窄至5-10个百分点(⚠️高置信度)

  2. 工作流门槛高于模型门槛:企业安全团队的核心痛点不是"哪个模型最强",而是"能否无缝接入我们的CI/CD管道、Jira工单系统、Splunk日志平台"

  3. 数据飞轮效应启动:Anthropic已通过Project Glasswing积累超过40家头部客户的漏洞扫描数据(✅已验证),这些数据将反哺模型迭代,形成先发优势

二、Anthropic阵营:Mythos + Glasswing

Claude Mythos:攻击发现的"先手棋"

Claude Mythos是Anthropic专为代码安全审计、漏洞挖掘、攻击路径推理深度优化的预览版模型。

指标 数值 来源
SWE-bench准确率 93.9% ⚠️厂商宣称
USAMO基准 97.6% ⚠️厂商宣称
CyberGym漏洞复现准确率 83.1% ⚠️高置信度
TLO测试完成率 3/10次全程完成 ✅已验证(AISI)
Firefox漏洞发现数 271个 ✅已验证(Mozilla)
高危漏洞占比 180个sec-high ✅已验证(Mozilla)

AISI TLO测试的含义:TLO(The Last Ones)是一个模拟32步企业网络攻击的测试环境,AISI估算人类专家完成需要约20小时。Mythos是首个全程完成该测试的AI模型(10次尝试中成功3次)。这证明Mythos不仅能完成单项安全任务,更能将多个漏洞串联成完整攻击链。

Mozilla验证:工业级实战数据

Mozilla与Anthropic的合作提供了迄今为止最完整的工业级验证:

  • 效率对比:Claude Opus 4.6在2周内发现22个漏洞(Firefox 148);Mythos在同等周期内发现271个漏洞(Firefox 150),效率提升12倍以上(✅已验证)
  • 误报率控制:Mozilla首席工程师Brian Grinstead明确表示,Mythos生成的漏洞报告"几乎没有假阳性"(✅已验证)
  • 验证机制:Mozilla构建了agentic harness(智能体测试框架),让Mythos可以动态创建可复现的测试用例
  • 漏洞类型:涵盖JIT、WebAssembly GC、IndexedDB、WebTransport、XSLT、HTML tables、RLBox等模块,包括潜伏15年的HTML legend元素缺陷和20年的XSLT漏洞(✅已验证)

Project Glasswing:企业落地路径

核心策略:受限发布,优先覆盖关键基础设施。

  • $100M承诺:Anthropic投入1亿美元额度用于模型使用credits(✅已验证)
  • $4M直接捐赠:向开源安全组织捐赠400万美元,包括Alpha-Omega、OpenSSF(250万美元)和Apache Software Foundation(150万美元)(✅已验证)
  • 12家核心合作伙伴:AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks(✅已验证)
  • 40+关键基础设施机构:获得防御性使用权限(⚠️高置信度)

定价:通过Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry提供,价格为$25/百万输入token、$125/百万输出token(⚠️厂商宣称)

三、OpenAI阵营:Daybreak

三层模型架构

Daybreak采用分层授权模式,体现OpenAI对安全可控性的重视:

层级 模型 定位 安全保障
L1 GPT-5.5(标准版) 通用用途,标准安全防护 标准安全过滤器
L2 GPT-5.5 + Trusted Access for Cyber 授权防御工作流(安全代码审查、漏洞分类、恶意软件分析、检测工程、补丁验证) 更精确的安全过滤器+授权环境验证
L3 GPT-5.5-Cyber 专项授权工作流(授权红队、渗透测试、受控验证) 最宽松行为+增强验证+账号级控制

Codex Security:执行框架

Daybreak的核心差异化在于Codex Security智能体执行框架

  1. 读取代码仓库:自动解析企业软件架构和代码库
  2. 生成可编辑威胁模型:基于代码分析生成结构化威胁模型,企业可修改和补充
  3. 自动监控:持续追踪高风险漏洞,而非一次性扫描
  4. 隔离环境调查:在沙箱环境中验证漏洞可利用性

基础模型:GPT-5.4-Cyber,已修复超过3000个漏洞(✅已验证,OpenAI官方)

差异化定位:安全左移

OpenAI明确表示,Daybreak的目标不是"单次漏洞扫描",而是嵌入日常开发循环的安全工具链

  • 开发团队不再需要等到发布前才集中排查问题
  • 安全检查可以融入日常写代码、改代码、验证补丁的循环
  • 对拥有大量代码库和依赖项的公司,这种模式更适合长期维护

合作伙伴生态

安全厂商:Cloudflare、Cisco、CrowdStrike、Palo Alto Networks、Oracle、Zscaler、Akamai、Fortinet(✅已验证)

合作评价:Cloudflare CTO Dane Knecht表示:"OpenAI的网络安全能力为安全工作流带来了更强的推理能力和更多智能体执行。将前沿模型用于加速开发的同时提升安全姿态,这是一个重大进步。"

待争取的头部客户:Apple、Microsoft、Google、Amazon已采用Anthropic Glasswing(✅已验证),Daybreak需要争夺这些客户。

四、深度对比分析

维度 Mythos + Glasswing Daybreak
核心能力 攻击发现(先发制人) 持续防御(安全左移)
定位哲学 "先发现漏洞,先修补" "软件从一开始就带防御能力"
核心模型 Claude Mythos Preview GPT-5.5-Cyber
执行框架 Agentic harness(定制) Codex Security(标准化)
工作模式 漏洞发现 → 报告 → 披露 建模 → 监控 → 排查闭环
头部客户 Apple、MS、Google、Amazon、AWS等12家核心 Cloudflare、Cisco等安全厂商为主
定价 $25/M输入 + $125/M输出 未公布
政府合作 AISI评测(英国)、多国监管关注 正与行业和政府伙伴合作
行业承诺 $100M credits + $4M捐赠 未公布
独立验证 AISI TLO测试、Mozilla实战验证 OpenAI官方数据为主

五、薄弱点分析

Anthropic阵营的挑战

风险类型 具体问题 防御方向
传统问题 漏洞修复能力瓶颈:Mythos发现了271个漏洞,但NVD/CVE评分系统已出现积压,联邦机构15-60天修补期限与批量披露不兼容 推动自动化漏洞评分、AI辅助补丁生成
AI攻击风险 双刃剑效应:Mythos不仅能发现漏洞,还能自主利用漏洞(80%自主利用成功率),若泄露将成攻击利器 持续受限发布,AISI监督,能力克制原则
传统问题 开源维护者资源不足:发现漏洞的是AI,修复漏洞仍需人类,志愿者维护者面临巨大压力 $4M捐赠+长期承诺,自动化修复建议输出
AI攻击风险 合规悬崖:AI发现速度远超人类修复速度,漏洞发现到利用的时间窗口从"数月"压缩至"分钟" 建立快速响应机制,优先处理高危漏洞

OpenAI阵营的挑战

风险类型 具体问题 防御方向
传统问题 客户基础劣势:头部科技公司已采用Glasswing,Daybreak需说服客户切换或补充 从安全厂商入手,通过渠道影响最终客户
传统问题 定价不透明:Daybreak价格未公布,企业难以做ROI评估 尽快公布定价策略,提供评估版
AI攻击风险 验证数据不足:GPT-5.4-Cyber修复3000+漏洞的数据来自OpenAI官方,缺乏独立第三方验证 引入第三方安全公司参与评估
传统问题 Codex Security框架成熟度:相比Mozilla为Mythos定制的agentic harness,标准化框架在特定代码库适配性上可能存在差距 开放定制接口,支持企业级集成

为什么重要

  • 攻防不对称正在逆转:Mozilla CTO Bobby Holley的判断值得重视——"漏洞是有限的,我们正在进入一个可以发现所有漏洞的世界"。如果AI辅助漏洞发现成为主流,安全防御逻辑将从"尽可能减少漏洞"转向"比攻击者更快发现和修补"

  • 平台生态比模型性能更重要:TLO测试中Mythos与GPT-5.4的差距仅约5-10个百分点,但Glasswing积累的企业客户和数据飞轮优势可能更具战略价值

  • 双刃剑风险不容忽视:AISI评测确认Mythos可自主完成32步攻击链,这一能力若被滥用后果不堪设想。两个阵营都在探索"能力克制"边界

决策建议

对于CISO和安全团队

  1. 立即行动:申请Daybreak评估(OpenAI官网已开放申请);同时关注Glasswing合作机会,特别是企业代码库与Firefox复杂度相当的场景
  2. 评估现有工具链差距:Daybreak和Glasswing的核心价值不是替代现有SIEM/SOC工具,而是填补"代码审计"和"漏洞发现"环节的空白
  3. 准备内部流程:AI漏洞发现的速度可能远超修补流程,需要提前优化漏洞分级、分配、修复的内部SLA

对于投资者

  1. 关注差异化指标:不是模型基准分数,而是企业客户数量漏洞发现-修复闭环时间
  2. 竞争格局风险:网络安全AI市场可能快速走向集中,Cloudflare、CrowdStrike等安全厂商的站队将影响市场格局
  3. 监管变量:各国政府对AI网络攻击能力的监管政策存在重大不确定性,可能影响两个平台的市场准入

预判

时间维度 预判
短期(0-6个月) OpenAI将通过安全厂商渠道快速拓展企业客户;Anthropic深化Glasswing核心客户的数据飞轮
中期(6-18个月) 市场分化:漏洞发现需求→Glasswing;开发集成需求→Daybreak;部分企业双平台并行
长期(18个月+) 功能趋同,竞争转向数据飞轮和定价策略;AI安全审计成为LLM厂商标配

本文由VendorDeep技术分析团队撰写,数据标注说明:✅已验证=官方/第三方来源明确数据,⚠️高置信度=多源交叉推断,⚠️厂商宣称=仅单一来源

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐