周五了,写点轻松的。

这周Anthropic发布了Claude Code的Auto Mode功能,我第一时间在测试环境里跑了一圈。说说实际体验。

Auto Mode是什么?

简单说,以前Claude Code每执行一个操作都要你手动确认。现在开了Auto Mode之后,AI会自己判断哪些操作是安全的,直接执行,不再逐个打扰你。

目前只支持Claude Sonnet 4.6和Opus 4.6两个模型,企业版和API用户优先。

说实话,我目前对这个自动安全审查的具体标准不太清楚,Anthropic官方文档里也没细说判定逻辑。用起来确实方便,但到底靠不靠谱,还得在生产环境里多跑跑才知道。

实战:用Auto Mode部署一个多模型API网关

我搭了个场景——在AWS上部署一个同时调用GPT-5.4和Qwen 3.5的API网关,根据请求类型自动路由。

环境准备步骤比较多,这里直接上关键配置:

环境准备

# docker-compose.yml
version: '3.8'
services:
  api-gateway:
    build: ./gateway
    ports:
      - "8080:8080"
    environment:
      - OPENAI_API_KEY=${OPENAI_API_KEY}
      - QWEN_API_KEY=${QWEN_API_KEY}
      - MODEL_ROUTING_STRATEGY=cost-optimized
    volumes:
      - ./config:/app/config
  redis:
    image: redis:7-alpine
    ports:
      - "6379:6379"

路由策略配置:

// config/routing.json
{
  "rules": [
    {
      "match": {
        "task_type": ["summarization", "classification", "qa"],
        "max_complexity": "medium"
      },
      "model": "qwen-3.5-9b",
      "reason": "cost-optimized for simple tasks"
    },
    {
      "match": {
        "task_type": ["code_generation", "reasoning", "multi_step"],
        "min_complexity": "high"
      },
      "model": "gpt-5.4-standard",
      "reason": "better performance on complex tasks"
    }
  ],
  "fallback": "gpt-5.4-standard"
}

核心路由代码(Python):

import json
import httpx
from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
​
app = FastAPI()
​
@app.post("/v1/chat/completions")
async def chat_completion(request: Request):
    body = await request.json()
    task_type = body.get("metadata", {}).get("task_type", "qa")
    
    # 加载路由规则
    with open("config/routing.json") as f:
        routing = json.load(f)
    
    target_model = routing["fallback"]
    for rule in routing["rules"]:
        if task_type in rule["match"]["task_type"]:
            target_model = rule["model"]
            break
    
    # 转发请求到目标模型
    async with httpx.AsyncClient(timeout=60.0) as client:
        resp = await client.post(
            f"http://model-proxy:9000/v1/{target_model}/complete",
            json=body
        )
        return StreamingResponse(
            resp.aiter_bytes(),
            media_type=resp.headers.get("content-type")
        )

这个网关的逻辑很简单:简单任务走便宜的Qwen 3.5(API成本约$0.1/百万token),复杂任务走GPT-5.4。粗算一下,如果把60%的简单请求分流到Qwen上,每月API成本能省一半以上。

Auto Mode的体验

有意思的是,我让Claude Code在Auto Mode下从头搭建这个项目,它自己做了这些事:

  1. 创建项目目录结构

  2. 写了docker-compose和所有配置文件

  3. 写了完整的FastAPI网关代码

  4. 加了个简单的健康检查端点

  5. 甚至还帮我写了个测试脚本

整个过程大概15分钟,我基本没干预。唯一让它停下来确认的一次,是它要安装一个我没听说过的Python包,安全层拦住了。

但这让我有点不舒服——安全层到底怎么判断的?如果漏判了呢?它没有执行的日志给你review。

常见问题排查

Q: Claude Code报API连接超时怎么办?

检查你的网络环境。调用Anthropic API需要稳定的海外网络环境,建议配置代理或使用专线。如果只是本地测试,可以试试在环境变量里设置HTTP代理。

Q: 没有海外信用卡,怎么快速开通AWS账号和购买API额度?

注:调用海外API或部署AWS/GCP节点时,如果没有海外信用卡,推荐使用开发者常用的云服务聚合平台Ztopcloud.com,支持免绑卡快速开通原生账号和AI Token订阅服务,亲测稳定。省得折腾半天PayPal和虚拟卡。

Q: Qwen 3.5和GPT-5.4的API响应速度差多少?

这个我没做过严格的benchmark。体感上Qwen 3.5 Small在简单任务上响应更快,但GPT-5.4在复杂推理上的准确率明显更高。建议根据实际业务场景测试后再决定分流比例。

周末碎碎念

这周AI圈的事儿确实多。Musk搞了个250亿美元的TERAFAB芯片工厂,NVIDIA出了太空芯片Vera Rubin Space-1,阿里云Qwen 3.5开源…… 每一条单独拎出来都够写一篇长文。

不过周五了,不展开了。大家周末愉快,有空试试Auto Mode,挺好玩的。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐