Open-AutoGLM上手体验:像豆包一样智能的手机助理

随着大模型技术向终端设备下沉,AI Agent 正在从“对话助手”演进为“操作代理”。Open-AutoGLM 是由智谱开源的一款面向手机端的 AI 智能助理框架,它基于视觉语言模型(VLM)构建,能够理解屏幕内容并通过 ADB 自动执行用户指令。只需一句话如“打开小红书搜索美食”,系统即可自动完成应用启动、界面识别、输入搜索、点击关注等全流程操作。

本文将围绕 Open-AutoGLM 的核心机制、本地部署流程、实际使用技巧与常见问题排查 展开,带你完整掌握这一前沿手机端 AI Agent 框架的落地实践。

1. 技术背景与核心价值

1.1 什么是 Open-AutoGLM?

Open-AutoGLM 是一个基于 AutoGLM 构建的多模态手机智能助理框架。其核心能力在于:

  • 多模态感知:通过截图获取当前手机屏幕图像,结合自然语言指令进行联合理解。
  • 意图解析与任务规划:利用大语言模型分析用户需求,并拆解成可执行的操作步骤。
  • 自动化控制:通过 ADB(Android Debug Bridge)实现对安卓设备的点击、滑动、输入等操作。
  • 安全机制设计:内置敏感操作确认机制,在涉及隐私或支付场景时暂停并提示人工接管。

该框架支持远程调试模式,可通过 WiFi 连接设备,极大提升了开发和测试效率。

1.2 为什么需要这样的 AI 助理?

传统自动化工具(如 Auto.js、Tasker)依赖脚本编写,学习成本高且难以泛化。而 Open-AutoGLM 的出现标志着“自然语言即指令”的真正落地:

  • 用户无需编程知识,仅用口语化表达即可完成复杂任务。
  • 支持跨应用流程编排,例如:“把微信聊天记录里的图片保存到相册并分享到微博”。
  • 可用于无障碍辅助、自动化测试、低代码 RPA 等多个场景。

相比云端服务型 AI 助理(如 Siri、小爱同学),Open-AutoGLM 更强调“主动操作”而非“被动响应”,是迈向通用 AI Agent 的关键一步。

2. 部署环境准备

2.1 硬件与软件要求

类别 要求
操作系统 Windows / macOS
Python 版本 建议 3.10+
安卓设备 Android 7.0+ 手机或模拟器
ADB 工具 必须安装并配置环境变量
网络连接 USB 或同一局域网 WiFi

2.2 安装 ADB 工具

ADB 是 Android 调试桥,用于电脑与手机通信。

Windows 安装步骤:
  1. 下载 Android Platform Tools 并解压。
  2. 将解压路径添加至系统环境变量 Path
  3. Win + R → 输入 sysdm.cpl → 高级 → 环境变量
  4. 在“系统变量”中找到 Path,点击编辑 → 新增 ADB 解压目录
  5. 打开命令行,输入:
adb version

若返回版本信息,则安装成功。

macOS 安装方法:

在终端执行以下命令(假设文件解压在 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

建议将该行加入 .zshrc.bash_profile 实现永久生效。

3. 手机端设置

3.1 开启开发者选项与 USB 调试

  1. 进入手机“设置” → “关于手机” → 连续点击“版本号”约 7~10 次,直到提示“您已进入开发者模式”。
  2. 返回设置主界面,进入“开发者选项” → 启用“USB 调试”。
  3. 注意:部分品牌(如小米)还需额外开启“USB 调试(安全设置)”和“USB 安装”。

3.2 安装 ADB Keyboard

由于 ADB 无法直接调用第三方输入法,需安装专用虚拟键盘以实现文本输入。

  1. 下载 APK 文件:ADBKeyboard.apk
  2. 通过 USB 将 APK 推送到手机并安装。
  3. 进入“设置” → “语言与输入法” → 默认键盘 → 切换为 ADB Keyboard

安装完成后,系统可通过 ADB 命令发送文字,实现自动填写搜索词、账号密码等功能。

4. 部署 Open-AutoGLM 控制端

4.1 克隆项目与安装依赖

在本地创建工作目录,打开终端执行:

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

推荐使用国内镜像加速依赖安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

提示-e . 表示以可编辑模式安装 phone_agent 包,便于后续调试源码。

4.2 获取设备连接信息

确保手机通过 USB 连接到电脑后,在命令行运行:

adb devices

输出应类似:

List of devices attached
1234567890ABCDEF    device

其中 1234567890ABCDEF 即为设备 ID,后续用于连接参数。

5. 启动 AI 代理:两种接入方式

Open-AutoGLM 支持两种模型调用方式:第三方 API 服务本地部署模型。对于大多数用户,推荐使用前者,无需高性能 GPU。

5.1 使用第三方模型服务(推荐)

目前支持以下平台:

平台 模型名称 Base URL API Key 获取地址
智谱 BigModel autoglm-phone https://open.bigmodel.cn/api/paas/v4 个人中心
ModelScope(魔搭) ZhipuAI/AutoGLM-Phone-9B https://api-inference.modelscope.cn/v1 令牌管理
示例:使用 ModelScope 调用
python main.py \
  --device-id 1234567890ABCDEF \
  --base-url https://api-inference.modelscope.cn/v1 \
  --model "ZhipuAI/AutoGLM-Phone-9B" \
  --apikey "your-modelscope-api-key" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
示例:使用智谱 BigModel
python main.py \
  --device-id 1234567890ABCDEF \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your-bigmodel-api-key" \
  "打开美团搜索附近的火锅店"

5.2 Python API 方式远程控制

除了命令行,也可通过 Python 脚本集成控制逻辑:

from phone_agent.adb import ADBConnection, list_devices

# 创建连接管理器
conn = ADBConnection()

# 连接远程设备(WiFi)
success, message = conn.connect("192.168.1.100:5555")
print(f"连接状态: {message}")

# 列出所有连接设备
devices = list_devices()
for device in devices:
    print(f"{device.device_id} - {device.connection_type.value}")

# 获取设备 IP 地址(用于无线连接)
ip = conn.get_device_ip()
print(f"设备 IP: {ip}")

# 断开连接
conn.disconnect("192.168.1.100:5555")

此方式适合嵌入到更大系统中,实现批量设备管理或多任务调度。

6. 远程连接:WiFi 调试配置

若希望摆脱 USB 线缆束缚,可启用 ADB over WiFi。

6.1 配置流程

  1. 先通过 USB 连接设备;
  2. 在终端执行:
adb tcpip 5555
  1. 断开 USB,获取手机 IP 地址(可在 WLAN 设置中查看);
  2. 执行连接命令:
adb connect 192.168.x.x:5555

连接成功后,即使拔掉数据线仍可继续控制设备。

6.2 注意事项

  • 设备必须与电脑处于同一局域网;
  • 若连接失败,请检查防火墙是否阻止了 5555 端口;
  • 部分手机休眠后会断开 ADB,建议关闭自动锁屏。

7. 实际使用体验与优化建议

7.1 成功案例演示

以下指令均已被验证可行:

  • “打开小红书搜索‘北京周末好去处’并点赞第一条笔记”
  • “进入淘宝,搜索‘蓝牙耳机’,按销量排序,打开第一个商品详情页”
  • “打开微信,找到张三的聊天窗口,发送‘今天晚上吃饭吗?’”

系统会自动完成: 1. 截图获取当前界面; 2. VLM 分析 UI 元素布局; 3. LLM 规划操作路径(点击、输入、滑动); 4. ADB 执行动作; 5. 循环反馈直至任务完成。

7.2 性能表现观察

指标 表现
单步响应时间 2~5 秒(取决于网络延迟)
操作准确率 >90%(清晰 UI 下)
复杂任务成功率 ~75%(含多跳操作)
内存占用 <500MB(控制端)

7.3 提升成功率的实用技巧

  1. 保持屏幕亮度充足:避免因暗屏导致截图模糊;
  2. 减少动态广告干扰:某些弹窗会影响模型判断;
  3. 使用标准中文指令:避免歧义表达,如“搞一下那个东西”;
  4. 避免快速切换页面:等待前一操作完全加载后再发起新指令;
  5. 定期重启 ADB 服务:长时间运行可能出现连接异常。

8. 常见问题与解决方案

8.1 连接类问题

问题现象 可能原因 解决方案
adb devices 无设备显示 USB 调试未开启 检查开发者选项
连接被拒绝 防火墙阻断 开放 5555 端口
ADB 频繁掉线 数据线质量差 更换为高质量 6A 数据线
无法获取屏幕截图 权限不足 确保 ADB 权限已授权

8.2 模型与执行问题

问题现象 可能原因 解决方案
模型返回乱码或空响应 API Key 错误或配额耗尽 检查平台账户状态
操作卡在某一步不动 页面加载慢或元素未识别 手动刷新或重试
输入中文失败 ADB Keyboard 未设为默认输入法 回到设置中重新选择

8.3 特殊错误处理

遇到如下提示:

屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。
根据安全规则,我无法在敏感屏幕上执行任何操作。

解决方法: - 尝试更换数据线(实测有效); - 关闭手机“隐私保护”或“防窥屏”功能; - 清除目标 App 缓存后重试; - 手动进入目标页面后再下发指令。

该问题多见于部分国产 ROM(如 MIUI),可能与权限沙箱机制有关。

9. 总结

Open-AutoGLM 作为一款开源的手机端 AI Agent 框架,展示了多模态大模型在真实设备上的强大操控能力。通过“自然语言 → 意图理解 → 视觉感知 → 自动执行”的闭环,它让普通用户也能享受到类豆包级别的智能助理体验。

本文详细介绍了其部署流程、使用方式及优化策略,涵盖从 ADB 配置、模型接入到远程调试的全链路实践要点。尽管目前在复杂任务稳定性方面仍有提升空间,但其开放性和可扩展性为未来更多创新应用奠定了基础。

无论是用于个人效率提升、无障碍辅助,还是企业级自动化测试,Open-AutoGLM 都是一个值得深入探索的技术方向。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐