OpenClaw技能扩展：安装千问3.5-35B-A3B-FP8多模态技能包

本文介绍了如何在星图GPU平台上自动化部署千问3.5-35B-A3B-FP8多模态技能包，实现高效的图文内容识别与处理。该镜像支持自动化解析图片中的文字、表格等复杂内容，特别适用于会议纪要整理、文档校对等办公场景，显著提升多模态数据处理效率。

谛听汪

157人浏览 · 2026-04-03 01:28:04

谛听汪 · 2026-04-03 01:28:04 发布

OpenClaw技能扩展：安装千问3.5-35B-A3B-FP8多模态技能包

1. 为什么需要多模态技能包？

上周我在整理团队项目资料时遇到一个头疼的问题——需要从几百张会议白板照片中提取文字内容，并和对应的会议录音转文字稿进行交叉核对。手动操作不仅耗时，还容易遗漏关键信息。这时候我想到了OpenClaw的Skill扩展机制，决定尝试安装千问3.5多模态技能包来解决这个问题。

千问3.5-35B-A3B-FP8作为支持视觉理解的模型，可以帮OpenClaw实现图片内容识别、图文匹配等能力。相比纯文本模型，它的多模态特性让自动化流程更接近人类工作方式。比如：

直接解析截图中的表格数据
识别照片中的文字内容
理解图文混合文档的逻辑关系

2. 准备工作与环境检查

在开始安装前，我建议先做以下准备：

2.1 基础环境确认

确保你的OpenClaw核心服务已正常运行。在终端执行：

openclaw --version
openclaw gateway status

如果看到版本号（如v0.8.2+）和"running"状态，说明基础环境正常。我最初忽略了这步检查，结果安装时才发现网关服务没启动，白白浪费了20分钟排查时间。

2.2 模型服务验证

由于我们要安装的是千问3.5相关技能，需要确认模型服务可用。如果你使用星图平台部署的千问镜像，可以通过curl测试：

curl -X POST "http://你的模型地址/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{"model":"qwen3-35b","messages":[{"role":"user","content":"测试连通性"}]}'

正常应该返回JSON格式的响应。我在公司内网部署时，曾因防火墙规则导致连接失败，后来通过telnet 端口测试才发现问题。

3. 技能包安装全流程

3.1 搜索可用技能包

OpenClaw社区提供了clawhub这个技能包管理工具。先全局安装CLI工具：

npm install -g clawhub@latest

然后搜索千问3.5相关技能：

clawhub search --keyword "qwen3.5"

我得到的返回结果类似这样：

qwen-multimodal-processor (v1.2.3) - 千问多模态处理工具链
qwen-doc-analyzer (v0.9.1) - 支持图文混合文档解析

注意：技能包名称和版本会持续更新，以你搜索时的实际结果为准。我最初按照某篇教程的包名安装，结果发现已经废弃，走了段弯路。

3.2 安装核心技能包

选择安装多模态处理器：

clawhub install qwen-multimodal-processor -g

这里的-g参数表示全局安装，所有项目都可使用。安装过程会自动下载依赖，可能需要2-5分钟（视网络情况而定）。

安装完成后验证：

clawhub list --installed | grep qwen

应该能看到刚安装的包。如果遇到权限问题，可以尝试加上sudo，但我更推荐先修正npm的全局安装权限。

3.3 配置文件调整

技能包安装后，需要更新OpenClaw的配置文件~/.openclaw/openclaw.json，在skills部分新增：

{
  "skills": {
    "qwen-multimodal": {
      "enabled": true,
      "model": "qwen3-35b",
      "max_image_size": 2048
    }
  }
}

这里有个细节需要注意：model字段的值必须和你实际部署的模型标识一致。我一开始填的是qwen3.5，结果技能报错，后来查看模型API文档才发现应该用qwen3-35b。

4. 多模态能力测试

配置完成后，重启网关服务使变更生效：

openclaw gateway restart

4.1 基础测试

通过OpenClaw的Web控制台（通常是http://localhost:18789）发送测试指令：

请分析这张图片中的文字内容：[图片URL或本地路径]

如果是本地图片，路径格式如file:///Users/name/Pictures/test.png。我第一次测试时用了相对路径./test.png，结果技能包找不到文件，改用绝对路径后解决。

4.2 复杂场景测试

尝试更复杂的多模态指令：

对比这两张产品原型图的差异：[图1][图2]，用Markdown表格列出主要区别

这个测试能验证技能包的：

图像理解能力
结构化输出能力
多图关联分析能力

我在测试时发现，当图片分辨率过高时（如4000x3000），处理时间会明显延长。后来在配置中加了"max_image_size": 2048限制后，性能提升了3倍左右。

5. 常见问题解决方案

在实际使用中，我遇到了以下几个典型问题：

5.1 图片处理超时

现象：处理高分辨率图片时长时间无响应
解决：修改配置中的max_image_size参数，或提前压缩图片。也可以通过技能包参数调整超时时间：

{
  "skills": {
    "qwen-multimodal": {
      "timeout": 60000
    }
  }
}

5.2 中文OCR准确率低

现象：手写体或特殊字体识别错误率高
解决：可以组合使用专门的OCR技能包作为补充：

clawhub install ocr-zh-cn-enhanced

然后在指令中明确指定使用增强版OCR：

使用增强OCR分析这张手写笔记：[图片]

5.3 多图关联失效

现象：当指令中包含多张图片时，模型只处理了第一张
解决：这是早期版本的一个已知问题，可以通过更新技能包解决：

clawhub update qwen-multimodal-processor

6. 我的使用心得

经过两周的实际使用，这个多模态技能包已经成为我日常工作流的重要组成部分。最让我惊喜的三个应用场景是：

会议纪要自动化：直接拍照白板内容，自动提取关键决策点并整合到会议记录中
文档校对：对比设计稿截图与需求文档的一致性，找出遗漏的需求点
数据采集：从行业报告PDF的图表中提取结构化数据

不过也要注意合理使用——对于简单明确的文本提取，传统OCR工具可能更高效；而当需要理解图像语义时，千问3.5的多模态能力才能真正发挥价值。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

网文作者用什么AI工具？蛙趣拼文、Claude、DeepSeek、Gemini、豆包横向评测

DeepSeek技术社区

DeepSeek融资50亿美元+V4.1即将发布：开发者应该关注什么？

钱的事情不多说了，新闻稿到处都是。下面从几个角度聊一下我的看法。

DeepSeek技术社区

2026 国内大模型 API 中转选型笔记:从接入成本到长期维护的几个观察

国内团队接入大模型时，API中转站选型需综合考虑多个维度。首先关注接入兼容性和稳定性，确保支持OpenAI/Anthropic/Gemini协议；其次考察模型覆盖范围，包括GPT、Claude等主流模型及国产开源模型同步速度；企业级需求需评估子账号管理、对公发票等配套服务。价格策略分透传派、接近官方价派和折扣促销派，建议谨慎评估过低折扣的稳定性。测试时应重点验证长文本、流式输出等场景，并关注模型I