Claude 源码泄露之后，我反而更确定了一件事：AI Coding 已经变了

Claude Code源码泄露事件刷屏后，我才发现AI Coding的竞争早已变了天！不再是比谁的模型生成代码更强，而是拼谁能搭出完整的执行闭环。把GPT-5.4、Codex Security、MCP、Gemma4这些2026年的AI动作串起来，才看懂这才是真正的行业分水岭。

lizhihui0215

829人浏览 · 2026-04-06 02:45:17

lizhihui0215 · 2026-04-06 02:45:17 发布

Claude 源码泄露之后，我反而更确定了一件事：AI Coding 已经变了

摘要：Claude Code 的源码意外外流，让很多人第一次有机会近距离观察一款顶级 AI Coding Agent 的系统结构。但越看越清楚：源码不是壁垒，执行闭环才是。从 GPT‑5.4、Codex Security、Vercept、Gemma 4 到 MCP，2026 年这几条线索其实都在指向同一件事：AI Coding 的竞争，正在从“生成能力”迁移到“执行闭环”。

来源说明：为保证阅读体验，正文只保留少量 [数字] 引用，完整出处统一放在文末。

说实话，一开始我也不太信。

Claude Code 爆火的时候，很多人的第一反应都是：模型更强了，写代码更像人了，上下文更长了，工具也更多了。

直到“Claude 源码泄露”这件事刷屏，社区开始疯狂拆它的 prompt、agent loop、memory、tool orchestration，我反而更确定了一件事：

真正值得关注的，不是某一段源码，而是这类产品正在同时长成“可执行的系统”。

再说得更直接一点：

AI Coding 的竞争，正在从“生成能力”，迁移到“执行闭环”。

一、先把“Claude 源码泄露”这个热点说清楚

最近这波讨论之所以会爆，是因为 Anthropic 一次发布打包失误，让 Claude Code 的一大块内部 TypeScript 代码通过 source map 暴露出来。公开报道普遍提到，外流规模超过 51 万行代码。0 1

但这件事真正值得注意的，不是吃瓜，而是两个事实。

第一，按 Anthropic 对外说明，这不是传统意义上的“安全攻破”，而是一次 release packaging issue caused by human error；同时他们表示，没有客户数据和凭证被暴露。0 1

第二，代码一旦进入社区视野，大家很快就不再只关心“它写得漂不漂亮”，而是在拆同一类结构：

agent loop
planner
tool orchestration
memory / context
permissions / guardrails
recovery

这非常关键。

因为它暴露出一个现实：源码当然重要，但源码不是壁垒本身。

如果一个产品的竞争力，只建立在几段 prompt、几百个函数、几个工具封装上，那它很难在今天这个阶段真正形成差距。真正拉开差距的，是这些模块被装配成系统之后，能不能稳定地把事情做完。

源码能被复制，但执行闭环很难复制。

二、我们一直在用“旧标准”评价 AI Coding

过去两年，我们评价 AI Coding 工具时，最常看的还是这些指标：

写得对不对
补全准不准
上下文长不长
benchmark 漂不漂亮

这些维度没有错，但已经不够了。

到了 2026 年，我越来越觉得，“会写代码”正在从差异项变成入场券。真正决定体验上限的，开始变成更接近工程落地的问题：

它能不能理解整个代码库，而不是只理解当前聊天窗口？
它能不能连续完成一串动作，而不是只给建议？
它能不能读文件、改文件、跑命令、跑测试，再把结果回写到任务上下文里？
它在执行高风险动作时，有没有权限边界、确认机制和审计日志？
它失败后是直接终止，还是能自动重试、降级、换策略继续推进？

换句话说，我们正在从“它说得对不对”，转向“它能不能把事做完”。

三、一个很多人还没完全意识到的变化：AI 正在从“回答器”变成“运行时”

这是我觉得最值得重视的底层变化。

以前，AI 更像一个回答器：

你问
它答
你再手工把答案变成操作

现在，AI 越来越像一个 runtime：

你给目标
它做计划
它调用工具
它维护状态
它处理异常
它把结果写回真实系统

这意味着，下一代 AI Coding 产品，已经不能再只理解成“聊天框 + 一个更强模型”，也不能只理解成“IDE 里一个更聪明的补全器”。

它更像这样：

UI / CLI / IDE
      ↓
Agent Loop（状态机）
      ↓
Planner（规划与决策）
      ↓
Orchestrator（工具调度）
      ↓
Tools（文件 / 命令 / 浏览器 / 搜索 / 子 Agent）
      ↓
Infra（权限 / 记忆 / 审计 / 成本 / 路由）

如果你熟悉操作系统，会发现它很像：

Shell
Scheduler
Syscall
Memory
Permission
Logging

区别只是：以前系统调度的是进程和线程，现在调度的是模型、工具和子智能体。

四、把 2026 这几条 AI 动作串起来看，信号已经非常清楚了

如果只盯着单个产品，很容易觉得大家是在“各发各的功能”。

但把最近几条动作放在一起，你会发现它们都在指向同一个方向：让模型进入软件系统，而不是停留在对话系统。

1）OpenAI：把模型直接推向 professional work + computer use + 长任务

OpenAI 在 2026 年 3 月发布的 GPT‑5.4，不只是“更强一代模型”，而是把重点明确推到了 professional work、native computer use、tool search 和 1M context 上；官方还直接写到，它可以让 agents 在更长时间尺度上进行计划、执行和验证。3

与此同时，GPT‑5.4 mini / nano 的定位也很有意思：更小、更快，面向 coding、tool use、high-volume API 和 sub-agent workloads。4

这背后其实很像一种系统架构信号：

大模型做判断，小模型做并行执行。

2）Codex Security：产品边界已经从“写代码”推进到“验证—修复—复核”

OpenAI 对 Codex Security 的定义，也很能说明问题。官方把它描述成一个 AI application security agent，会结合项目上下文去发现、验证并修复复杂漏洞；帮助中心也明确说，它更像一个安全研究员，而不是一个传统扫描器：会读代码、跑测试、探索真实攻击路径，然后给出可以走正常审查流程的 patch。5 6

这已经不是“帮你写几段代码”了，而是直接进入软件交付链路。

3）Anthropic：Claude Code 的产品定义，本身就是执行闭环

Anthropic 自己对 Claude Code 的描述也很直白：它会读你的代码库、跨文件修改、运行测试，并交付已提交的代码。7

这句话其实已经把产品边界说透了。
它不是 autocomplete，而是一个 agentic coding system。

再往前看，Anthropic 最近收购 Vercept，也是为了推进 Claude 的 computer use 能力；官方甚至给出了 Sonnet 模型在 OSWorld 上从 2024 年末不到 15% 到现在 72.5% 的提升。8
这说明竞争不只发生在“代码生成”上，也发生在“真实操作系统和工作流的执行能力”上。

4）Google：开放模型也在把 agentic workflows 写进定位

Gemma 4 的官方描述同样非常直接：purpose-built for advanced reasoning and agentic workflows。9

这意味着，“执行闭环”不只是闭源前沿模型的故事，连开放模型也在往这个方向收敛。

5）MCP：它越来越像 AI Runtime 世界里的系统调用层

Anthropic 在 2024 年推出 MCP 时，把它定义成连接 AI assistants 与内容库、业务工具、开发环境的开放标准。10
到了 2026 年，他们又把 MCP 捐赠到 Linux Foundation 旗下的 Agentic AI Foundation，继续强调它要保持中立、开放和社区驱动。11

这件事的意义其实很大：
当工具接入从“某家私有接口”变成“开放标准”时，Agent 的能力扩展会越来越像操作系统的 syscall / driver interface，而不再只是“再接一个插件”。

五、接下来真正的主战场，不在模型里，而在工具层和系统层

很多人还在卷“谁更聪明”。

但如果你真做过 agentic coding，就会很快发现：体感差距很多时候根本不在模型本身。

我现在更看重这 5 件事。

1）工具调度（Orchestration）

不是能不能调工具，而是：

能不能并发调用多个工具
能不能边生成边执行
能不能减少用户等待的“空转时间”
工具之间冲突时能不能安全调度

这决定的是闭环速度，而不是单轮回答质量。

2）上下文管理（Context Management）

不是“窗口有多长”，而是：

会不会分层
会不会压缩
会不会保留真正关键的信息
长任务跑久了会不会越来越乱

Anthropic 自己关于 agent context engineering 的文章就讲得很清楚：随着 agent 运行轮次和时间跨度增加，整个 context state 必须被持续地整理、精炼和更新。12

3）文件修改与变更控制（Editing + Guardrails）

真正进入执行层以后，问题就不再是“会不会写代码”，而是：

能不能精确改到正确位置
能不能做多文件联动
能不能检测冲突
能不能回滚
能不能输出可审查 diff

没有这些，工具很容易停留在“建议层”，进不了生产。

4）权限与审计（Permissions + Audit）

当 AI 开始有能力调用命令、改文件、操作浏览器时，安全就不再是加分项，而是门槛。

尤其对企业来说，至少要有：

路径或目录边界
危险操作识别
高风险动作确认
全链路日志与审计

5）失败恢复（Recovery）

这是最容易被低估，但我认为最能区分 demo 和 system 的能力。

一个 AI Coding 产品真正像不像系统，不是看它顺风顺水时有多丝滑，而是看它失败后会发生什么：

直接报错结束？
自动重试？
降级到更稳的策略？
换工具继续？
带着中间状态恢复？

如果没有 recovery，再聪明也很难在长链路任务里稳定交付。

六、还有一个越来越现实的变化：Agent 的外围基础设施正在补齐

很多人讨论 AI Coding 时，注意力都放在模型和工具上。

但真把 agent pipeline 跑起来之后，你很快会遇到另一堆更“脏活累活”的问题：

多模型接入怎么统一
API key 和用量怎么管
路由与降级怎么做
成本怎么控
不同设备和环境怎么同步
审计和执行记录怎么沉淀

这时候市场会自然长出一类“统一执行层入口”。

你不一定非要用某一个平台，重点是这种形态本身已经说明了一件事：

行业不再只需要“能调用模型”，而是需要“能把模型稳定接进真实工作流”。

例如，一个很常见的工程化做法，就是把 OpenAI-compatible 的模型接入、路由和用量收口到统一 endpoint：

# 这里只是示意“执行层入口”长什么样
curl https://www.token4ai.cloud/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.4",
    "messages": [
      {
        "role": "user",
        "content": "Fix the flaky test, rerun it, and summarize the root cause."
      }
    ]
  }'

真正值得注意的，不是这个 URL 指向哪里，而是这种入口背后的产品形态：

统一模型接入
统一执行链路
统一鉴权、审计、用量与设备状态

很多人会低估这一层，但当 agent 从 demo 走向生产时，这一层往往才是瓶颈。

七、如果你也在做 AI Coding，更值得学的不是某个产品，而是这些模式

我现在越来越不建议只盯着“复刻某个工具”。

更值得学的是这些不会轻易过时的工程模式。

1）Agent Loop

while True:
    goal = read_goal()
    constraints = read_constraints()

    context = gather_context(
        task_summary,
        recent_messages,
        repo_state,
        tool_results,
        memory
    )

    action = planner(context)

    if action.need_tool:
        result = run_tool(action.tool, action.args)
        log(result)
        update_context(result)
        continue

    deliver(action.output)
    break

关键不是这个循环长什么样，而是：

状态怎么保存
失败怎么恢复
结果怎么验证
上下文怎么越跑越稳

2）Tool Contract

Tool:
  name: edit_file
  inputs:
    - path
    - patch
    - constraints
  guards:
    - allowed_paths
    - forbidden_patterns
    - sensitive_file_rules
  exec:
    - apply_patch
    - validate
    - rollback_if_needed
  audit:
    - record_diff
    - record_command
    - record_duration
    - record_cost

工具系统不是越多越强，而是越可治理越强。

3）Context Tiers

至少分成：

任务摘要
当前目标
近期对话
工具结果
代码库索引
长期记忆
失败记录与回滚点

超限时优先保留：

约束
验收标准
关键决策理由
最近失败原因
当前执行进度

4）Defense in Depth

Layer 1: 静态规则
- 黑名单命令
- 路径白名单
- 敏感目录保护

Layer 2: 工具自检
- 危险参数拦截
- dry-run
- 沙盒执行
- 结果校验

Layer 3: 人类确认 / 策略确认
- 高风险动作必须确认
- 越权操作必须中断
- 关键变更必须可审计

5）Skills / Plugins

当扩展能力变成“新增一个描述 + 绑定一个工具 + 配一套权限规则”，而不是“反复改核心逻辑”时，系统才会从能用一次走向长期可维护。

八、回到最开始的问题：Claude Code 为什么会爆？

现在再看这个问题，我已经不太会把答案归结为“模型更强”了。

Claude Code 真正踩中的，是一个时代切换点：

当很多人还在比“谁更会生成代码”的时候，它更早把产品重心放到了“如何完成一个真实的软件任务”上。

所以你第一次用这类产品时，真正感受到的往往不是“它更聪明”，而是“它更像一个系统”：

会读代码库
会跨文件修改
会跑测试
会继续追 bug
会调用工具
会处理长任务
会在权限框架内执行

你感受到的其实不是回答升级，而是 runtime 成型。

九、最后：真正的分水岭不在模型里，而在模型外

所以我现在再看 AI Coding 工具时，已经不太关心这些问题了：

它用了哪个模型
benchmark 多高
单轮回答像不像人
一次生成漂不漂亮

我更关心的是：

它的执行闭环是否完整
它的系统是否可扩展、可治理
它能不能稳定接进真实工作流
它失败时能不能恢复，而不是把责任丢回给人

因为下一阶段 AI 的竞争，很可能不在模型本身。

而在于谁先把 Agent 做成真正的软件系统。

模型会变，热点会换，产品会迭代。
但只要你看懂这套结构，就很难再把 AI Coding 只当成“一个更会写代码的聊天框”。

赞助商 https://www.token4ai.cloud

[1] 虎嗅网：Claude Code 源码泄露，藏电子宠物与全天候代理 https://m.huxiu.com/article/4847094.html

[2] 36 氪：Anthropic 源码泄露 50 万行，人为失误致 https://36kr.com/p/3748861741957897

[3] 机器之心：OpenAI 发布 GPT-5.4，全新代理能力https://www.jiqizhixin.com/articles/2026-03-17/100122

[4] 量子位：GPT-5.4 mini/nano 发布，轻量高效https://www.qbitai.com/2026/03/1450223.html

[5] OpenAI 中文社区：Codex Security 研究预览上线https://www.openai.com.cn/blog/codex-security-preview

[6] OpenAI 帮助中心（中文）：Codex Security 安全说明https://help.openai.com.cn/articles/20001107-codex-security

[7] Claude 中文网：Claude Code 产品介绍https://www.anthropic-cn.com/product/claude-code

[8] Anthropic 中文博客：收购 Vercept 提升电脑操控https://www.anthropic-cn.com/news/acquires-vercept

[9] Google 开发者中国：Gemma 4 最强开源模型发布https://developers.googleblog.cn/2026/03/gemma-4.html

[10] Claude 中文网：Model Context Protocol 介绍https://www.anthropic-cn.com/news/model-context-protocol

[11] Anthropic 中文博客：捐赠 MCP 协议成立 AI 代理基金会https://www.anthropic-cn.com/news/donate-mcp-foundation

[12] Anthropic 中文工程博客：AI 代理有效上下文工程https://www.anthropic-cn.com/engineering/context-engineering

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

RAG混合检索失败模式解析：为什么向量+关键词的离线评测必须分层抽样？

DeepSeek技术社区

DeepSeek与OpenAI网关路由成本账本：per-token计费下如何优化多模型流量

DeepSeek技术社区

国产大模型 API 聚合网关：配额与熔断的工程化实践

DeepSeek技术社区

所有评论(0)

查看更多评论

lizhihui0215

@lizhihui0215

已为社区贡献5条内容

Claude 源码泄露之后，我反而更确定了一件事：AI Coding 已经变了

lizhihui0215

Claude 源码泄露之后，我反而更确定了一件事：AI Coding 已经变了

一、先把“Claude 源码泄露”这个热点说清楚

二、我们一直在用“旧标准”评价 AI Coding

三、一个很多人还没完全意识到的变化：AI 正在从“回答器”变成“运行时”

四、把 2026 这几条 AI 动作串起来看，信号已经非常清楚了

1）OpenAI：把模型直接推向 professional work + computer use + 长任务

2）Codex Security：产品边界已经从“写代码”推进到“验证—修复—复核”

3）Anthropic：Claude Code 的产品定义，本身就是执行闭环

4）Google：开放模型也在把 agentic workflows 写进定位

5）MCP：它越来越像 AI Runtime 世界里的系统调用层

五、接下来真正的主战场，不在模型里，而在工具层和系统层

1）工具调度（Orchestration）

2）上下文管理（Context Management）

3）文件修改与变更控制（Editing + Guardrails）

4）权限与审计（Permissions + Audit）

5）失败恢复（Recovery）

六、还有一个越来越现实的变化：Agent 的外围基础设施正在补齐

七、如果你也在做 AI Coding，更值得学的不是某个产品，而是这些模式

1）Agent Loop

2）Tool Contract

3）Context Tiers

4）Defense in Depth

5）Skills / Plugins

八、回到最开始的问题：Claude Code 为什么会爆？

九、最后：真正的分水岭不在模型里，而在模型外

所有评论(0)

温馨提示：您尚未绑定手机号

lizhihui0215