使用vLLM部署Qwen3.6-35B-A3B/Qwen3.6-27B并且支持在Claude Code中调用

Qwen/Qwen3.6-35B-A3B在智能体编码（Agentic Coding）：模型现在能以更高的流畅度和精确度处理前端工作流和仓库级推理。思维保留（Thinking Preservation）：可保留历史消息中的推理上下文，从而简化迭代开发并降低开销。看来非常适合在智能体工具中使用呀！

HoweChenya

2757人浏览 · 2026-04-17 11:31:57

HoweChenya · 2026-04-17 11:31:57 发布

前言

随着各种智能体工具（claude code, opencode, qwen code...)所展现出的越来越强的能力，越来越多人意识到，智能体工具是真的能在日常工作中提高自己的效率。普通人只要花一点钱就能买到一个“聪明的大脑”，但是随着需求的不断释放，模型厂商的算力也出现了瓶颈导致各家的Coding plan 越来越贵而且额度给的越来越少。好在昨晚阿里千万团队开源了Qwen/Qwen3.6-35B-A3B，这款相对轻量高效的模型，让普通实现token自由成为可能！（消费级显卡可以等量化模型，非量化版本权重也大概在71.93GB）今天我就讲讲如何使用VLLM部署这个令人激动的Qwen/Qwen3.6-35B-A3B！

模型简介

Qwen/Qwen3.6-35B-A3B在Qwen/Qwen3.5-35B-A3B的基础上着重提升了以下几种能力：

智能体编码（Agentic Coding）：模型现在能以更高的流畅度和精确度处理前端工作流和仓库级推理。
思维保留（Thinking Preservation）：可保留历史消息中的推理上下文，从而简化迭代开发并降低开销。

看来非常适合在智能体工具中使用呀！

硬件配置

本文所使用的GPU为H20 96GB VRAM，由于Qwen/Qwen3.6-35B-A3B的权重大概在72GB左右，请确保你有足够的GPU。

模型部署

创建环境

在创建环境之前先创建一个目录

mkdir qwen_3_6
cd qwen_3_6

使用uv创建并激活环境，如果没有安装过uv可以查看 uv安装

安装完uv后创建并激活环境

uv venv --python=3.12
source .venv/bin/activate

安装modelscope

modelscope是一个魔搭社区推出的用于便利管理魔搭社区平台上的模型权重和数据集的工具。

uv pip install modelscope

安装vLLM

vLLM是一个先进的大模型推理服务框架，支持大量的开源模型。

uv pip install vllm --torch-backend=auto

安装完vLLM后查看一下vllm版本需要>=0.19.0

下载模型

使用modelscope下载模型

modelscope download Qwen/Qwen3.6-35B-A3B

启动服务

配置文件

准备vllm serve配置文件，注意将配置文件中的"your-api-key"替换成你自己的api key，你可以随意指定一串字符串。

model: Qwen/Qwen3.6-35B-A3B
served_model_name: qwen3.6-flash
host: 0.0.0.0
port: 8000
tensor-parallel-size: 1
gpu-memory-utilization: 0.90
api-key: your-api-key
disable_fastapi_docs: true
enable_auto_tool_choice: true
tool_call_parser: qwen3_xml
reasoning-parser: qwen3
max-model-len: 131072
max_num_seqs: 1024
max_num_batched_tokens: 65536
enable_chunked_prefill: True
trust-remote-code: true

启动

export VLLM_USE_MODELSCOPE=true
vllm serve --config config.yaml

等待服务启动完成，出现如下图所示的日志代表服务成功启动：

在Claude Code中使用模型

安装claude code

npm install -g @anthropic-ai/claude-code

运行以下命令，如果输出版本信息则代表安装成功

claude --version

新增或编辑配置文件

MacOS & Linux 为 ~/.claude/settings.json

Windows 为用户目录/.claude/settings.json

{
    "env": {
        "ANTHROPIC_AUTH_TOKEN": "your-api-key",
        "ANTHROPIC_BASE_URL": "http://vllm-host:8000",
        "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.6-flash",
        "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-flash",
        "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-flash",
        "ANTHROPIC_MODEL": "qwen3.6-flash",
        "API_TIMEOUT_MS": "3000000",
        "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
    }
}

注意替换里面的`your-api-key`和`vllm-host`为你运行vllm 服务器地址。