OpenClaw技能开发入门：为千问3.5-35B-A3B-FP8定制多模态Skill

本文介绍了如何在星图GPU平台上自动化部署千问3.5-35B-A3B-FP8镜像，开发多模态Skill实现截图分析与报告生成功能。通过OpenClaw工具链，开发者可快速构建定制化AI技能，将视觉理解与文本处理能力结合，应用于产品改进建议生成等实际场景。

滚菩提哦呢

39人浏览 · 2026-04-08 05:23:57

滚菩提哦呢 · 2026-04-08 05:23:57 发布

OpenClaw技能开发入门：为千问3.5-35B-A3B-FP8定制多模态Skill

1. 为什么需要自定义Skill？

去年冬天，我尝试用OpenClaw自动化处理一批产品截图和用户反馈文档。当时发现一个痛点：标准技能库里的图像处理模块只能做基础分类，而我的需求是"识别截图中的UI元素，提取文字反馈并生成改进建议"。这让我意识到，真正高效的自动化往往需要定制化开发。

千问3.5-35B-A3B-FP8这类多模态模型的出现，为技能开发打开了新可能。它不仅能理解文本，还能解析图片内容——这意味着我们可以开发出像"截图分析+报告生成"这样的复合型Skill。本文将分享我开发这类技能时的完整实践路径。

2. 开发环境准备

2.1 基础工具链

开发OpenClaw Skill需要以下环境（以macOS为例）：

# 确认Node.js版本（建议v18+）
node -v

# 安装OpenClaw开发套件
npm install -g @openclaw/cli @openclaw/devkit

# 初始化技能项目
claw init skill qwen-multimodal-demo --template=typescript

关键目录结构说明：

qwen-multimodal-demo/
├── package.json    # 技能元数据
├── src/
│   ├── index.ts    # 技能入口
│   ├── model.ts    # 模型交互逻辑
│   └── tasks/      # 具体任务实现
└── openclaw.json   # 本地测试配置

2.2 模型接入配置

在openclaw.json中配置千问3.5的本地服务地址：

{
  "models": {
    "providers": {
      "qwen-local": {
        "baseUrl": "http://localhost:8080/v1",
        "api": "openai-completions",
        "models": [{
          "id": "qwen3.5-35b-a3b-fp8",
          "name": "千问多模态版",
          "capabilities": ["text","vision"]
        }]
      }
    }
  }
}

注意：如果模型部署在星图平台，baseUrl应替换为平台提供的接口地址，并确保网络可达。

3. 技能开发核心逻辑

3.1 多模态任务拆解框架

开发复杂Skill的关键在于合理拆解任务。以"截图分析报告生成"为例，我的拆解逻辑是：

输入预处理：接收图片文件或截图路径
视觉理解：调用模型解析图片内容
文本增强：结合额外文本输入（可选）
报告生成：结构化输出分析结果
后续动作：保存报告/发送通知等

对应的TypeScript实现框架：

// src/tasks/screenshot-analysis.ts
interface AnalysisRequest {
  imagePath: string;
  userPrompt?: string;
}

export async function analyzeScreenshot(
  request: AnalysisRequest
): Promise<AnalysisResult> {
  // 1. 读取图片文件
  const imageData = await readImageAsBase64(request.imagePath);
  
  // 2. 构造多模态请求
  const messages: Array<ChatMessage> = [
    {
      role: "user",
      content: [
        { type: "text", text: request.userPrompt || "分析这张截图" },
        { type: "image_url", image_url: { url: imageData } }
      ]
    }
  ];

  // 3. 调用千问模型
  const response = await model.chatCompletion({
    model: "qwen3.5-35b-a3b-fp8",
    messages,
    max_tokens: 2000
  });

  // 4. 结果后处理
  return parseAnalysisResult(response.choices[0].message.content);
}

3.2 模型交互最佳实践

与千问3.5交互时，我总结了几个关键点：

多模态提示词设计：
- 对图片内容给出明确指令（如"列出图中所有按钮文字"）
- 结合文本提示限定输出格式（如"用Markdown表格输出"）
上下文管理：
- 长对话场景下需要维护视觉上下文
- 可通过messageId实现多轮指代
性能优化：
- 大图片建议先压缩再传入
- 设置合理的max_tokens避免截断

// src/model.ts
export async function chatWithImage(
  imageBase64: string,
  prompt: string
): Promise<string> {
  const response = await openai.chat.completions.create({
    model: "qwen3.5-35b-a3b-fp8",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: prompt },
          { type: "image_url", image_url: { url: imageBase64 } }
        ]
      }
    ],
    max_tokens: 1024
  });
  return response.choices[0].message.content;
}

4. 调试与部署实战

4.1 本地测试技巧

开发过程中，我习惯用openclaw-cli进行快速验证：

# 启动测试环境
claw dev --skill=./qwen-multimodal-demo

# 发送测试请求
claw invoke screenshot-analysis --image=./test.png --prompt="分析UI布局"

常见问题排查：

图片路径问题：确保使用绝对路径
模型响应慢：检查图片尺寸，超过1024px建议缩放
输出不完整：调整max_tokens参数

4.2 技能打包与发布

完成开发后，按以下步骤发布到ClawHub：

# 1. 更新package.json中的元数据
{
  "name": "@yourname/screenshot-analyzer",
  "version": "0.1.0",
  "description": "基于千问3.5的截图分析技能",
  "keywords": ["multimodal", "qwen", "screenshot"],
  "openclaw": {
    "capabilities": ["image-analysis", "report-generation"]
  }
}

# 2. 打包技能
claw pack

# 3. 发布到ClawHub（需要先登录）
claw publish

发布后，其他用户可以通过以下方式安装你的技能：

clawhub install @yourname/screenshot-analyzer

5. 进阶开发建议

在实际项目中，我推荐采用以下模式提升技能质量：

上下文缓存：对相同图片的多次分析可缓存中间结果
渐进式响应：长任务可先返回初步结果再持续优化
安全边界：对文件系统操作添加权限检查
配置化：将提示词模板抽离为可配置项

一个实现了部分优化的示例：

// src/tasks/advanced-analysis.ts
export async function enhancedAnalysis(
  request: AnalysisRequest,
  context: SkillContext
) {
  // 检查图片是否已分析过
  const cacheKey = hashFile(request.imagePath);
  if (context.cache.has(cacheKey)) {
    return context.cache.get(cacheKey);
  }

  // 渐进式响应：先返回快速分析
  context.emitPartialResponse({
    status: "processing",
    quickAnalysis: getQuickAnalysis(request.imagePath)
  });

  // 深度分析
  const fullAnalysis = await deepAnalysis(request);
  context.cache.set(cacheKey, fullAnalysis);
  
  return fullAnalysis;
}

开发自定义Skill最有趣的地方在于，你可以将千问3.5的多模态能力与OpenClaw的自动化特性结合，创造出真正贴合自己工作流的智能工具。从简单的截图分析到复杂的多步骤工作流自动化，可能性只受限于你的想象力。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

网安菜鸡的知识库逆袭：用 Obsidian + AI 搭建终身学习系统，保姆级教程（附全套模板）

还在为网络安全学习中学得杂、记得乱、找不着而头疼？本文专为大一网安新生打造，手把手教你用 Obsidian + AI（GitHub Copilot / ChatGPT）零成本搭建一套属于自己的、可检索、可复盘、可迭代的个人知识库。文章从痛点分析入手，给出了完整的专为安全学习设计的目录结构、7 个拿来就用的 Markdown 模板，并配有从安装 Obsidian、创建 Vault 到配置学生免费