Claude 源码泄露之后,我反而更确定了一件事:AI Coding 已经变了

摘要:Claude Code 的源码意外外流,让很多人第一次有机会近距离观察一款顶级 AI Coding Agent 的系统结构。但越看越清楚:源码不是壁垒,执行闭环才是。从 GPT‑5.4、Codex Security、Vercept、Gemma 4 到 MCP,2026 年这几条线索其实都在指向同一件事:AI Coding 的竞争,正在从“生成能力”迁移到“执行闭环”。

来源说明:为保证阅读体验,正文只保留少量 [数字] 引用,完整出处统一放在文末。

说实话,一开始我也不太信。

Claude Code 爆火的时候,很多人的第一反应都是:模型更强了,写代码更像人了,上下文更长了,工具也更多了。

直到“Claude 源码泄露”这件事刷屏,社区开始疯狂拆它的 prompt、agent loop、memory、tool orchestration,我反而更确定了一件事:

真正值得关注的,不是某一段源码,而是这类产品正在同时长成“可执行的系统”。

再说得更直接一点:

AI Coding 的竞争,正在从“生成能力”,迁移到“执行闭环”。


一、先把“Claude 源码泄露”这个热点说清楚

最近这波讨论之所以会爆,是因为 Anthropic 一次发布打包失误,让 Claude Code 的一大块内部 TypeScript 代码通过 source map 暴露出来。公开报道普遍提到,外流规模超过 51 万行代码。01

但这件事真正值得注意的,不是吃瓜,而是两个事实。

第一,按 Anthropic 对外说明,这不是传统意义上的“安全攻破”,而是一次 release packaging issue caused by human error;同时他们表示,没有客户数据和凭证被暴露。01

第二,代码一旦进入社区视野,大家很快就不再只关心“它写得漂不漂亮”,而是在拆同一类结构:

  • agent loop
  • planner
  • tool orchestration
  • memory / context
  • permissions / guardrails
  • recovery

这非常关键。

因为它暴露出一个现实:源码当然重要,但源码不是壁垒本身。

如果一个产品的竞争力,只建立在几段 prompt、几百个函数、几个工具封装上,那它很难在今天这个阶段真正形成差距。真正拉开差距的,是这些模块被装配成系统之后,能不能稳定地把事情做完。

源码能被复制,但执行闭环很难复制。


二、我们一直在用“旧标准”评价 AI Coding

过去两年,我们评价 AI Coding 工具时,最常看的还是这些指标:

  • 写得对不对
  • 补全准不准
  • 上下文长不长
  • benchmark 漂不漂亮

这些维度没有错,但已经不够了。

到了 2026 年,我越来越觉得,“会写代码”正在从差异项变成入场券。真正决定体验上限的,开始变成更接近工程落地的问题:

  1. 它能不能理解整个代码库,而不是只理解当前聊天窗口?
  2. 它能不能连续完成一串动作,而不是只给建议?
  3. 它能不能读文件、改文件、跑命令、跑测试,再把结果回写到任务上下文里?
  4. 它在执行高风险动作时,有没有权限边界、确认机制和审计日志?
  5. 它失败后是直接终止,还是能自动重试、降级、换策略继续推进?

换句话说,我们正在从“它说得对不对”,转向“它能不能把事做完”。


三、一个很多人还没完全意识到的变化:AI 正在从“回答器”变成“运行时”

这是我觉得最值得重视的底层变化。

以前,AI 更像一个回答器:

  • 你问
  • 它答
  • 你再手工把答案变成操作

现在,AI 越来越像一个 runtime:

  • 你给目标
  • 它做计划
  • 它调用工具
  • 它维护状态
  • 它处理异常
  • 它把结果写回真实系统

这意味着,下一代 AI Coding 产品,已经不能再只理解成“聊天框 + 一个更强模型”,也不能只理解成“IDE 里一个更聪明的补全器”。

它更像这样:

UI / CLI / IDE
      ↓
Agent Loop(状态机)
      ↓
Planner(规划与决策)
      ↓
Orchestrator(工具调度)
      ↓
Tools(文件 / 命令 / 浏览器 / 搜索 / 子 Agent)
      ↓
Infra(权限 / 记忆 / 审计 / 成本 / 路由)

如果你熟悉操作系统,会发现它很像:

  • Shell
  • Scheduler
  • Syscall
  • Memory
  • Permission
  • Logging

区别只是:以前系统调度的是进程和线程,现在调度的是模型、工具和子智能体。


四、把 2026 这几条 AI 动作串起来看,信号已经非常清楚了

如果只盯着单个产品,很容易觉得大家是在“各发各的功能”。

但把最近几条动作放在一起,你会发现它们都在指向同一个方向:让模型进入软件系统,而不是停留在对话系统。

1)OpenAI:把模型直接推向 professional work + computer use + 长任务

OpenAI 在 2026 年 3 月发布的 GPT‑5.4,不只是“更强一代模型”,而是把重点明确推到了 professional work、native computer use、tool search 和 1M context 上;官方还直接写到,它可以让 agents 在更长时间尺度上进行计划、执行和验证。3

与此同时,GPT‑5.4 mini / nano 的定位也很有意思:更小、更快,面向 coding、tool use、high-volume API 和 sub-agent workloads。4

这背后其实很像一种系统架构信号:

大模型做判断,小模型做并行执行。

2)Codex Security:产品边界已经从“写代码”推进到“验证—修复—复核”

OpenAI 对 Codex Security 的定义,也很能说明问题。官方把它描述成一个 AI application security agent,会结合项目上下文去发现、验证并修复复杂漏洞;帮助中心也明确说,它更像一个安全研究员,而不是一个传统扫描器:会读代码、跑测试、探索真实攻击路径,然后给出可以走正常审查流程的 patch。5 6

这已经不是“帮你写几段代码”了,而是直接进入软件交付链路。

3)Anthropic:Claude Code 的产品定义,本身就是执行闭环

Anthropic 自己对 Claude Code 的描述也很直白:它会读你的代码库、跨文件修改、运行测试,并交付已提交的代码。7

这句话其实已经把产品边界说透了。
它不是 autocomplete,而是一个 agentic coding system

再往前看,Anthropic 最近收购 Vercept,也是为了推进 Claude 的 computer use 能力;官方甚至给出了 Sonnet 模型在 OSWorld 上从 2024 年末不到 15% 到现在 72.5% 的提升。8
这说明竞争不只发生在“代码生成”上,也发生在“真实操作系统和工作流的执行能力”上。

4)Google:开放模型也在把 agentic workflows 写进定位

Gemma 4 的官方描述同样非常直接:purpose-built for advanced reasoning and agentic workflows9

这意味着,“执行闭环”不只是闭源前沿模型的故事,连开放模型也在往这个方向收敛。

5)MCP:它越来越像 AI Runtime 世界里的系统调用层

Anthropic 在 2024 年推出 MCP 时,把它定义成连接 AI assistants 与内容库、业务工具、开发环境的开放标准。10
到了 2026 年,他们又把 MCP 捐赠到 Linux Foundation 旗下的 Agentic AI Foundation,继续强调它要保持中立、开放和社区驱动。11

这件事的意义其实很大:
当工具接入从“某家私有接口”变成“开放标准”时,Agent 的能力扩展会越来越像操作系统的 syscall / driver interface,而不再只是“再接一个插件”。


五、接下来真正的主战场,不在模型里,而在工具层和系统层

很多人还在卷“谁更聪明”。

但如果你真做过 agentic coding,就会很快发现:体感差距很多时候根本不在模型本身。

我现在更看重这 5 件事。

1)工具调度(Orchestration)

不是能不能调工具,而是:

  • 能不能并发调用多个工具
  • 能不能边生成边执行
  • 能不能减少用户等待的“空转时间”
  • 工具之间冲突时能不能安全调度

这决定的是闭环速度,而不是单轮回答质量。

2)上下文管理(Context Management)

不是“窗口有多长”,而是:

  • 会不会分层
  • 会不会压缩
  • 会不会保留真正关键的信息
  • 长任务跑久了会不会越来越乱

Anthropic 自己关于 agent context engineering 的文章就讲得很清楚:随着 agent 运行轮次和时间跨度增加,整个 context state 必须被持续地整理、精炼和更新。12

3)文件修改与变更控制(Editing + Guardrails)

真正进入执行层以后,问题就不再是“会不会写代码”,而是:

  • 能不能精确改到正确位置
  • 能不能做多文件联动
  • 能不能检测冲突
  • 能不能回滚
  • 能不能输出可审查 diff

没有这些,工具很容易停留在“建议层”,进不了生产。

4)权限与审计(Permissions + Audit)

当 AI 开始有能力调用命令、改文件、操作浏览器时,安全就不再是加分项,而是门槛。

尤其对企业来说,至少要有:

  • 路径或目录边界
  • 危险操作识别
  • 高风险动作确认
  • 全链路日志与审计

5)失败恢复(Recovery)

这是最容易被低估,但我认为最能区分 demo 和 system 的能力。

一个 AI Coding 产品真正像不像系统,不是看它顺风顺水时有多丝滑,而是看它失败后会发生什么:

  • 直接报错结束?
  • 自动重试?
  • 降级到更稳的策略?
  • 换工具继续?
  • 带着中间状态恢复?

如果没有 recovery,再聪明也很难在长链路任务里稳定交付。


六、还有一个越来越现实的变化:Agent 的外围基础设施正在补齐

很多人讨论 AI Coding 时,注意力都放在模型和工具上。

但真把 agent pipeline 跑起来之后,你很快会遇到另一堆更“脏活累活”的问题:

  • 多模型接入怎么统一
  • API key 和用量怎么管
  • 路由与降级怎么做
  • 成本怎么控
  • 不同设备和环境怎么同步
  • 审计和执行记录怎么沉淀

这时候市场会自然长出一类“统一执行层入口”。

你不一定非要用某一个平台,重点是这种形态本身已经说明了一件事:

行业不再只需要“能调用模型”,而是需要“能把模型稳定接进真实工作流”。

例如,一个很常见的工程化做法,就是把 OpenAI-compatible 的模型接入、路由和用量收口到统一 endpoint:

# 这里只是示意“执行层入口”长什么样
curl https://www.token4ai.cloud/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.4",
    "messages": [
      {
        "role": "user",
        "content": "Fix the flaky test, rerun it, and summarize the root cause."
      }
    ]
  }'

真正值得注意的,不是这个 URL 指向哪里,而是这种入口背后的产品形态:

  • 统一模型接入
  • 统一执行链路
  • 统一鉴权、审计、用量与设备状态

很多人会低估这一层,但当 agent 从 demo 走向生产时,这一层往往才是瓶颈。


七、如果你也在做 AI Coding,更值得学的不是某个产品,而是这些模式

我现在越来越不建议只盯着“复刻某个工具”。

更值得学的是这些不会轻易过时的工程模式。

1)Agent Loop

while True:
    goal = read_goal()
    constraints = read_constraints()

    context = gather_context(
        task_summary,
        recent_messages,
        repo_state,
        tool_results,
        memory
    )

    action = planner(context)

    if action.need_tool:
        result = run_tool(action.tool, action.args)
        log(result)
        update_context(result)
        continue

    deliver(action.output)
    break

关键不是这个循环长什么样,而是:

  • 状态怎么保存
  • 失败怎么恢复
  • 结果怎么验证
  • 上下文怎么越跑越稳

2)Tool Contract

Tool:
  name: edit_file
  inputs:
    - path
    - patch
    - constraints
  guards:
    - allowed_paths
    - forbidden_patterns
    - sensitive_file_rules
  exec:
    - apply_patch
    - validate
    - rollback_if_needed
  audit:
    - record_diff
    - record_command
    - record_duration
    - record_cost

工具系统不是越多越强,而是越可治理越强。

3)Context Tiers

至少分成:

  • 任务摘要
  • 当前目标
  • 近期对话
  • 工具结果
  • 代码库索引
  • 长期记忆
  • 失败记录与回滚点

超限时优先保留:

  • 约束
  • 验收标准
  • 关键决策理由
  • 最近失败原因
  • 当前执行进度

4)Defense in Depth

Layer 1: 静态规则
- 黑名单命令
- 路径白名单
- 敏感目录保护

Layer 2: 工具自检
- 危险参数拦截
- dry-run
- 沙盒执行
- 结果校验

Layer 3: 人类确认 / 策略确认
- 高风险动作必须确认
- 越权操作必须中断
- 关键变更必须可审计

5)Skills / Plugins

当扩展能力变成“新增一个描述 + 绑定一个工具 + 配一套权限规则”,而不是“反复改核心逻辑”时,系统才会从能用一次走向长期可维护。


八、回到最开始的问题:Claude Code 为什么会爆?

现在再看这个问题,我已经不太会把答案归结为“模型更强”了。

Claude Code 真正踩中的,是一个时代切换点:

当很多人还在比“谁更会生成代码”的时候,它更早把产品重心放到了“如何完成一个真实的软件任务”上。

所以你第一次用这类产品时,真正感受到的往往不是“它更聪明”,而是“它更像一个系统”:

  • 会读代码库
  • 会跨文件修改
  • 会跑测试
  • 会继续追 bug
  • 会调用工具
  • 会处理长任务
  • 会在权限框架内执行

你感受到的其实不是回答升级,而是 runtime 成型。


九、最后:真正的分水岭不在模型里,而在模型外

所以我现在再看 AI Coding 工具时,已经不太关心这些问题了:

  • 它用了哪个模型
  • benchmark 多高
  • 单轮回答像不像人
  • 一次生成漂不漂亮

我更关心的是:

  • 它的执行闭环是否完整
  • 它的系统是否可扩展、可治理
  • 它能不能稳定接进真实工作流
  • 它失败时能不能恢复,而不是把责任丢回给人

因为下一阶段 AI 的竞争,很可能不在模型本身。

而在于谁先把 Agent 做成真正的软件系统。

模型会变,热点会换,产品会迭代。
但只要你看懂这套结构,就很难再把 AI Coding 只当成“一个更会写代码的聊天框”。


赞助商 https://www.token4ai.cloud

[1] 虎嗅网:Claude Code 源码泄露,藏电子宠物与全天候代理 https://m.huxiu.com/article/4847094.html

[2] 36 氪:Anthropic 源码泄露 50 万行,人为失误致 https://36kr.com/p/3748861741957897

[3] 机器之心:OpenAI 发布 GPT-5.4,全新代理能力https://www.jiqizhixin.com/articles/2026-03-17/100122

[4] 量子位:GPT-5.4 mini/nano 发布,轻量高效https://www.qbitai.com/2026/03/1450223.html

[5] OpenAI 中文社区:Codex Security 研究预览上线https://www.openai.com.cn/blog/codex-security-preview

[6] OpenAI 帮助中心(中文):Codex Security 安全说明https://help.openai.com.cn/articles/20001107-codex-security

[7] Claude 中文网:Claude Code 产品介绍https://www.anthropic-cn.com/product/claude-code

[8] Anthropic 中文博客:收购 Vercept 提升电脑操控https://www.anthropic-cn.com/news/acquires-vercept

[9] Google 开发者中国:Gemma 4 最强开源模型发布https://developers.googleblog.cn/2026/03/gemma-4.html

[10] Claude 中文网:Model Context Protocol 介绍https://www.anthropic-cn.com/news/model-context-protocol

[11] Anthropic 中文博客:捐赠 MCP 协议成立 AI 代理基金会https://www.anthropic-cn.com/news/donate-mcp-foundation

[12] Anthropic 中文工程博客:AI 代理有效上下文工程https://www.anthropic-cn.com/engineering/context-engineering

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐