千问3.5-9B模型微调指南：优化OpenClaw任务准确率

本文介绍了如何在星图GPU平台上自动化部署千问3.5-9B镜像，优化OpenClaw文件处理任务的准确率。通过微调该模型，用户可显著提升复杂指令（如会议录音转文字并按主题分类）的执行效果，实现智能文件管理自动化。

鸟看世界

374人浏览 · 2026-04-06 00:41:46

鸟看世界 · 2026-04-06 00:41:46 发布

千问3.5-9B模型微调指南：优化OpenClaw任务准确率

1. 为什么需要微调千问3.5-9B模型

当我第一次使用OpenClaw配合千问3.5-9B模型处理文件整理任务时，发现了一个有趣的现象：模型对常见的"整理桌面"指令理解得很好，但遇到"将上周的会议录音转文字并按主题分类"这类复杂需求时，准确率就会明显下降。经过两周的实际使用统计，基础模型在文件处理类任务的平均准确率只有68%左右。

这个发现让我意识到，虽然千问3.5-9B作为通用模型表现已经很优秀，但要让它真正成为得力的OpenClaw"大脑"，针对特定任务的微调必不可少。就像教一个新员工熟悉工作流程一样，我们需要用具体场景的数据来"训练"模型，让它更适应我们的需求。

2. 微调前的准备工作

2.1 收集操作日志

我首先让OpenClaw记录了近一个月内所有的文件操作日志。通过修改~/.openclaw/logging.json配置文件，增加了详细的上下文信息记录：

{
  "level": "debug",
  "fileLog": true,
  "fields": {
    "user_query": true,
    "agent_decision": true,
    "execution_result": true,
    "screenshots": false
  }
}

收集到的日志样本如下：

2024-03-15T14:22:18 [INFO] user_query="把财务部的PDF发票归档到2024年3月文件夹"
2024-03-15T14:22:21 [DEBUG] agent_decision={
  "action": "file_move",
  "source": "/Downloads/invoice_0321.pdf",
  "target": "/Finance/2024/03/invoice_0321.pdf"
}
2024-03-15T14:22:23 [ERROR] execution_result={
  "status": "failed",
  "reason": "target directory not exist"
}

2.2 标注badcase

从日志中筛选出200个失败案例，我建立了一个标注体系：

理解错误：模型完全误解了指令意图
执行错误：理解正确但操作逻辑有问题
环境问题：因系统权限或路径不存在导致的失败

标注示例：

| 用户指令 | 模型响应 | 错误类型 | 修正方案 |
|---------|---------|---------|---------|
| "整理照片到去年夏天文件夹" | 创建了"去年/夏天"两个子目录 | 理解错误 | 应识别"去年夏天"为时间短语 |
| "把报告按版本号排序" | 按文件名字母排序 | 执行错误 | 应提取版本号数字再排序 |

3. 数据准备与清洗

3.1 构建微调数据集

基于标注结果，我构建了三个类型的数据样本：

意图理解样本（占总数据60%）：

{
  "instruction": "将销售部上季度的Excel报表归档",
  "input": "",
  "output": "请在/Department/Sales/目录下创建Q1_2024子目录，移动所有.xlsx文件到该目录"
}

复杂操作样本（30%）：

{
  "instruction": "找出所有包含'合同'关键词的PDF，按签署日期排序",
  "input": "",
  "output": "使用pdfgrep搜索'合同'，提取签署日期元数据，按日期升序重命名文件为YYYYMMDD_原文件名"
}

异常处理样本（10%）：

{
  "instruction": "整理下载文件夹",
  "input": "目标磁盘空间不足",
  "output": "先检查磁盘空间，如不足则建议用户选择其他存储位置或先删除大文件"
}

3.2 数据增强技巧

为了提高数据多样性，我采用了以下方法：

同义替换：使用千问3.5-9B本身生成同一指令的不同表达方式
场景扩展：基于真实案例想象类似但不同的使用场景
错误注入：在正确样本中随机插入常见错误模式

最终得到了3200条高质量的训练样本，按照8:1:1划分训练/验证/测试集。

4. Lora适配器训练实践

4.1 训练环境配置

我使用了一台配备RTX 4090的Linux工作站，通过Docker运行千问3.5-9B镜像：

docker run -it --gpus all \
  -v /path/to/dataset:/data \
  -v /path/to/output:/output \
  qwen35-9b-finetune \
  bash

关键训练参数配置：

{
  "lora_rank": 64,
  "lora_alpha": 128,
  "target_modules": ["q_proj", "v_proj"],
  "per_device_train_batch_size": 2,
  "gradient_accumulation_steps": 8,
  "learning_rate": 3e-5,
  "warmup_steps": 100,
  "max_steps": 3000,
  "logging_steps": 50
}

4.2 训练过程监控

使用Weights & Biases监控训练过程，重点关注三个指标：

训练损失：最终降至0.18左右
验证准确率：稳定在89-91%区间
指令跟随度：人工评估100个样本达到92%

训练曲线图

图：训练损失与验证准确率变化曲线

4.3 模型合并与导出

训练完成后，将Lora适配器与基础模型合并：

python merge_peft_adapter.py \
  --base_model_name_or_path Qwen/Qwen1.5-9B \
  --peft_model_path /output/checkpoint-final \
  --output_dir /output/merged_model

导出为OpenClaw可用的格式：

openclaw models convert \
  --input /output/merged_model \
  --output ~/.openclaw/models/qwen9b-fileassistant \
  --format openclaw-v3

5. 部署与效果验证

5.1 OpenClaw配置调整

修改~/.openclaw/openclaw.json配置文件，指定使用微调后的模型：

{
  "models": {
    "default": "qwen9b-fileassistant",
    "providers": {
      "local": {
        "baseUrl": "http://localhost:5000",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen9b-fileassistant",
            "name": "Qwen 9B File Assistant"
          }
        ]
      }
    }
  }
}