Claude 源码泄露之后,我反而更确定了一件事:AI Coding 已经变了
Claude Code源码泄露事件刷屏后,我才发现AI Coding的竞争早已变了天!不再是比谁的模型生成代码更强,而是拼谁能搭出完整的执行闭环。把GPT-5.4、Codex Security、MCP、Gemma4这些2026年的AI动作串起来,才看懂这才是真正的行业分水岭。
Claude 源码泄露之后,我反而更确定了一件事:AI Coding 已经变了
摘要:Claude Code 的源码意外外流,让很多人第一次有机会近距离观察一款顶级 AI Coding Agent 的系统结构。但越看越清楚:源码不是壁垒,执行闭环才是。从 GPT‑5.4、Codex Security、Vercept、Gemma 4 到 MCP,2026 年这几条线索其实都在指向同一件事:AI Coding 的竞争,正在从“生成能力”迁移到“执行闭环”。
来源说明:为保证阅读体验,正文只保留少量
[数字]引用,完整出处统一放在文末。
说实话,一开始我也不太信。
Claude Code 爆火的时候,很多人的第一反应都是:模型更强了,写代码更像人了,上下文更长了,工具也更多了。
直到“Claude 源码泄露”这件事刷屏,社区开始疯狂拆它的 prompt、agent loop、memory、tool orchestration,我反而更确定了一件事:
真正值得关注的,不是某一段源码,而是这类产品正在同时长成“可执行的系统”。
再说得更直接一点:
AI Coding 的竞争,正在从“生成能力”,迁移到“执行闭环”。
一、先把“Claude 源码泄露”这个热点说清楚
最近这波讨论之所以会爆,是因为 Anthropic 一次发布打包失误,让 Claude Code 的一大块内部 TypeScript 代码通过 source map 暴露出来。公开报道普遍提到,外流规模超过 51 万行代码。01
但这件事真正值得注意的,不是吃瓜,而是两个事实。
第一,按 Anthropic 对外说明,这不是传统意义上的“安全攻破”,而是一次 release packaging issue caused by human error;同时他们表示,没有客户数据和凭证被暴露。01
第二,代码一旦进入社区视野,大家很快就不再只关心“它写得漂不漂亮”,而是在拆同一类结构:
- agent loop
- planner
- tool orchestration
- memory / context
- permissions / guardrails
- recovery
这非常关键。
因为它暴露出一个现实:源码当然重要,但源码不是壁垒本身。
如果一个产品的竞争力,只建立在几段 prompt、几百个函数、几个工具封装上,那它很难在今天这个阶段真正形成差距。真正拉开差距的,是这些模块被装配成系统之后,能不能稳定地把事情做完。
源码能被复制,但执行闭环很难复制。
二、我们一直在用“旧标准”评价 AI Coding
过去两年,我们评价 AI Coding 工具时,最常看的还是这些指标:
- 写得对不对
- 补全准不准
- 上下文长不长
- benchmark 漂不漂亮
这些维度没有错,但已经不够了。
到了 2026 年,我越来越觉得,“会写代码”正在从差异项变成入场券。真正决定体验上限的,开始变成更接近工程落地的问题:
- 它能不能理解整个代码库,而不是只理解当前聊天窗口?
- 它能不能连续完成一串动作,而不是只给建议?
- 它能不能读文件、改文件、跑命令、跑测试,再把结果回写到任务上下文里?
- 它在执行高风险动作时,有没有权限边界、确认机制和审计日志?
- 它失败后是直接终止,还是能自动重试、降级、换策略继续推进?
换句话说,我们正在从“它说得对不对”,转向“它能不能把事做完”。
三、一个很多人还没完全意识到的变化:AI 正在从“回答器”变成“运行时”
这是我觉得最值得重视的底层变化。
以前,AI 更像一个回答器:
- 你问
- 它答
- 你再手工把答案变成操作
现在,AI 越来越像一个 runtime:
- 你给目标
- 它做计划
- 它调用工具
- 它维护状态
- 它处理异常
- 它把结果写回真实系统
这意味着,下一代 AI Coding 产品,已经不能再只理解成“聊天框 + 一个更强模型”,也不能只理解成“IDE 里一个更聪明的补全器”。
它更像这样:
UI / CLI / IDE
↓
Agent Loop(状态机)
↓
Planner(规划与决策)
↓
Orchestrator(工具调度)
↓
Tools(文件 / 命令 / 浏览器 / 搜索 / 子 Agent)
↓
Infra(权限 / 记忆 / 审计 / 成本 / 路由)
如果你熟悉操作系统,会发现它很像:
- Shell
- Scheduler
- Syscall
- Memory
- Permission
- Logging
区别只是:以前系统调度的是进程和线程,现在调度的是模型、工具和子智能体。
四、把 2026 这几条 AI 动作串起来看,信号已经非常清楚了
如果只盯着单个产品,很容易觉得大家是在“各发各的功能”。
但把最近几条动作放在一起,你会发现它们都在指向同一个方向:让模型进入软件系统,而不是停留在对话系统。
1)OpenAI:把模型直接推向 professional work + computer use + 长任务
OpenAI 在 2026 年 3 月发布的 GPT‑5.4,不只是“更强一代模型”,而是把重点明确推到了 professional work、native computer use、tool search 和 1M context 上;官方还直接写到,它可以让 agents 在更长时间尺度上进行计划、执行和验证。3
与此同时,GPT‑5.4 mini / nano 的定位也很有意思:更小、更快,面向 coding、tool use、high-volume API 和 sub-agent workloads。4
这背后其实很像一种系统架构信号:
大模型做判断,小模型做并行执行。
2)Codex Security:产品边界已经从“写代码”推进到“验证—修复—复核”
OpenAI 对 Codex Security 的定义,也很能说明问题。官方把它描述成一个 AI application security agent,会结合项目上下文去发现、验证并修复复杂漏洞;帮助中心也明确说,它更像一个安全研究员,而不是一个传统扫描器:会读代码、跑测试、探索真实攻击路径,然后给出可以走正常审查流程的 patch。5 6
这已经不是“帮你写几段代码”了,而是直接进入软件交付链路。
3)Anthropic:Claude Code 的产品定义,本身就是执行闭环
Anthropic 自己对 Claude Code 的描述也很直白:它会读你的代码库、跨文件修改、运行测试,并交付已提交的代码。7
这句话其实已经把产品边界说透了。
它不是 autocomplete,而是一个 agentic coding system。
再往前看,Anthropic 最近收购 Vercept,也是为了推进 Claude 的 computer use 能力;官方甚至给出了 Sonnet 模型在 OSWorld 上从 2024 年末不到 15% 到现在 72.5% 的提升。8
这说明竞争不只发生在“代码生成”上,也发生在“真实操作系统和工作流的执行能力”上。
4)Google:开放模型也在把 agentic workflows 写进定位
Gemma 4 的官方描述同样非常直接:purpose-built for advanced reasoning and agentic workflows。9
这意味着,“执行闭环”不只是闭源前沿模型的故事,连开放模型也在往这个方向收敛。
5)MCP:它越来越像 AI Runtime 世界里的系统调用层
Anthropic 在 2024 年推出 MCP 时,把它定义成连接 AI assistants 与内容库、业务工具、开发环境的开放标准。10
到了 2026 年,他们又把 MCP 捐赠到 Linux Foundation 旗下的 Agentic AI Foundation,继续强调它要保持中立、开放和社区驱动。11
这件事的意义其实很大:
当工具接入从“某家私有接口”变成“开放标准”时,Agent 的能力扩展会越来越像操作系统的 syscall / driver interface,而不再只是“再接一个插件”。
五、接下来真正的主战场,不在模型里,而在工具层和系统层
很多人还在卷“谁更聪明”。
但如果你真做过 agentic coding,就会很快发现:体感差距很多时候根本不在模型本身。
我现在更看重这 5 件事。
1)工具调度(Orchestration)
不是能不能调工具,而是:
- 能不能并发调用多个工具
- 能不能边生成边执行
- 能不能减少用户等待的“空转时间”
- 工具之间冲突时能不能安全调度
这决定的是闭环速度,而不是单轮回答质量。
2)上下文管理(Context Management)
不是“窗口有多长”,而是:
- 会不会分层
- 会不会压缩
- 会不会保留真正关键的信息
- 长任务跑久了会不会越来越乱
Anthropic 自己关于 agent context engineering 的文章就讲得很清楚:随着 agent 运行轮次和时间跨度增加,整个 context state 必须被持续地整理、精炼和更新。12
3)文件修改与变更控制(Editing + Guardrails)
真正进入执行层以后,问题就不再是“会不会写代码”,而是:
- 能不能精确改到正确位置
- 能不能做多文件联动
- 能不能检测冲突
- 能不能回滚
- 能不能输出可审查 diff
没有这些,工具很容易停留在“建议层”,进不了生产。
4)权限与审计(Permissions + Audit)
当 AI 开始有能力调用命令、改文件、操作浏览器时,安全就不再是加分项,而是门槛。
尤其对企业来说,至少要有:
- 路径或目录边界
- 危险操作识别
- 高风险动作确认
- 全链路日志与审计
5)失败恢复(Recovery)
这是最容易被低估,但我认为最能区分 demo 和 system 的能力。
一个 AI Coding 产品真正像不像系统,不是看它顺风顺水时有多丝滑,而是看它失败后会发生什么:
- 直接报错结束?
- 自动重试?
- 降级到更稳的策略?
- 换工具继续?
- 带着中间状态恢复?
如果没有 recovery,再聪明也很难在长链路任务里稳定交付。
六、还有一个越来越现实的变化:Agent 的外围基础设施正在补齐
很多人讨论 AI Coding 时,注意力都放在模型和工具上。
但真把 agent pipeline 跑起来之后,你很快会遇到另一堆更“脏活累活”的问题:
- 多模型接入怎么统一
- API key 和用量怎么管
- 路由与降级怎么做
- 成本怎么控
- 不同设备和环境怎么同步
- 审计和执行记录怎么沉淀
这时候市场会自然长出一类“统一执行层入口”。
你不一定非要用某一个平台,重点是这种形态本身已经说明了一件事:
行业不再只需要“能调用模型”,而是需要“能把模型稳定接进真实工作流”。
例如,一个很常见的工程化做法,就是把 OpenAI-compatible 的模型接入、路由和用量收口到统一 endpoint:
# 这里只是示意“执行层入口”长什么样
curl https://www.token4ai.cloud/v1/chat/completions \
-H "Authorization: Bearer $API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.4",
"messages": [
{
"role": "user",
"content": "Fix the flaky test, rerun it, and summarize the root cause."
}
]
}'
真正值得注意的,不是这个 URL 指向哪里,而是这种入口背后的产品形态:
- 统一模型接入
- 统一执行链路
- 统一鉴权、审计、用量与设备状态
很多人会低估这一层,但当 agent 从 demo 走向生产时,这一层往往才是瓶颈。
七、如果你也在做 AI Coding,更值得学的不是某个产品,而是这些模式
我现在越来越不建议只盯着“复刻某个工具”。
更值得学的是这些不会轻易过时的工程模式。
1)Agent Loop
while True:
goal = read_goal()
constraints = read_constraints()
context = gather_context(
task_summary,
recent_messages,
repo_state,
tool_results,
memory
)
action = planner(context)
if action.need_tool:
result = run_tool(action.tool, action.args)
log(result)
update_context(result)
continue
deliver(action.output)
break
关键不是这个循环长什么样,而是:
- 状态怎么保存
- 失败怎么恢复
- 结果怎么验证
- 上下文怎么越跑越稳
2)Tool Contract
Tool:
name: edit_file
inputs:
- path
- patch
- constraints
guards:
- allowed_paths
- forbidden_patterns
- sensitive_file_rules
exec:
- apply_patch
- validate
- rollback_if_needed
audit:
- record_diff
- record_command
- record_duration
- record_cost
工具系统不是越多越强,而是越可治理越强。
3)Context Tiers
至少分成:
- 任务摘要
- 当前目标
- 近期对话
- 工具结果
- 代码库索引
- 长期记忆
- 失败记录与回滚点
超限时优先保留:
- 约束
- 验收标准
- 关键决策理由
- 最近失败原因
- 当前执行进度
4)Defense in Depth
Layer 1: 静态规则
- 黑名单命令
- 路径白名单
- 敏感目录保护
Layer 2: 工具自检
- 危险参数拦截
- dry-run
- 沙盒执行
- 结果校验
Layer 3: 人类确认 / 策略确认
- 高风险动作必须确认
- 越权操作必须中断
- 关键变更必须可审计
5)Skills / Plugins
当扩展能力变成“新增一个描述 + 绑定一个工具 + 配一套权限规则”,而不是“反复改核心逻辑”时,系统才会从能用一次走向长期可维护。
八、回到最开始的问题:Claude Code 为什么会爆?
现在再看这个问题,我已经不太会把答案归结为“模型更强”了。
Claude Code 真正踩中的,是一个时代切换点:
当很多人还在比“谁更会生成代码”的时候,它更早把产品重心放到了“如何完成一个真实的软件任务”上。
所以你第一次用这类产品时,真正感受到的往往不是“它更聪明”,而是“它更像一个系统”:
- 会读代码库
- 会跨文件修改
- 会跑测试
- 会继续追 bug
- 会调用工具
- 会处理长任务
- 会在权限框架内执行
你感受到的其实不是回答升级,而是 runtime 成型。
九、最后:真正的分水岭不在模型里,而在模型外
所以我现在再看 AI Coding 工具时,已经不太关心这些问题了:
- 它用了哪个模型
- benchmark 多高
- 单轮回答像不像人
- 一次生成漂不漂亮
我更关心的是:
- 它的执行闭环是否完整
- 它的系统是否可扩展、可治理
- 它能不能稳定接进真实工作流
- 它失败时能不能恢复,而不是把责任丢回给人
因为下一阶段 AI 的竞争,很可能不在模型本身。
而在于谁先把 Agent 做成真正的软件系统。
模型会变,热点会换,产品会迭代。
但只要你看懂这套结构,就很难再把 AI Coding 只当成“一个更会写代码的聊天框”。
赞助商 https://www.token4ai.cloud
[1] 虎嗅网:Claude Code 源码泄露,藏电子宠物与全天候代理 https://m.huxiu.com/article/4847094.html
[2] 36 氪:Anthropic 源码泄露 50 万行,人为失误致 https://36kr.com/p/3748861741957897
[3] 机器之心:OpenAI 发布 GPT-5.4,全新代理能力https://www.jiqizhixin.com/articles/2026-03-17/100122
[4] 量子位:GPT-5.4 mini/nano 发布,轻量高效https://www.qbitai.com/2026/03/1450223.html
[5] OpenAI 中文社区:Codex Security 研究预览上线https://www.openai.com.cn/blog/codex-security-preview
[6] OpenAI 帮助中心(中文):Codex Security 安全说明https://help.openai.com.cn/articles/20001107-codex-security
[7] Claude 中文网:Claude Code 产品介绍https://www.anthropic-cn.com/product/claude-code
[8] Anthropic 中文博客:收购 Vercept 提升电脑操控https://www.anthropic-cn.com/news/acquires-vercept
[9] Google 开发者中国:Gemma 4 最强开源模型发布https://developers.googleblog.cn/2026/03/gemma-4.html
[10] Claude 中文网:Model Context Protocol 介绍https://www.anthropic-cn.com/news/model-context-protocol
[11] Anthropic 中文博客:捐赠 MCP 协议成立 AI 代理基金会https://www.anthropic-cn.com/news/donate-mcp-foundation
[12] Anthropic 中文工程博客:AI 代理有效上下文工程https://www.anthropic-cn.com/engineering/context-engineering
更多推荐



所有评论(0)