出门前让Agent操作image v2帮我做PPT，全程没碰电脑

接到分享邀请，第二天要出门，电脑不带。唯一的接口是 Hermes。让它挂载我的文章目录、读内容、写提纲，然后通过 Chrome CDP 操控 ChatGPT Image V2 一页一页生成幻灯片图片，最后打包成 PPTX、替换假二维码——全链路跑通。整个过程我唯一做的事，就是对着手机语音说哪一页要改什么。

uwings

349人浏览 · 2026-05-07 09:30:52

uwings · 2026-05-07 09:30:52 发布

接到分享邀请，第二天要出门，电脑不带。唯一的接口是 Hermes。让它挂载我的文章目录、读内容、写提纲，然后通过 Chrome CDP 操控 ChatGPT Image V2 一页一页生成幻灯片图片，最后打包成 PPTX、替换假二维码——全链路跑通。整个过程我唯一做的事，就是对着手机语音说哪一页要改什么。

51节前，朋友有活动邀请做分享嘉宾，近期写的文章比较多，也有一些心得，想着可以分享一下。

如果是完全新写全新的内容，比较耗时间，刚好是 Agent 相关。想一想，这是一个测试 Agent 干活的实际场景，那就来吧！

截屏2026-05-07 07.08.02

规划

先想想实现路径

我本地有历史写过的文章，分布在 pc 的不同目录
Hermes在局域网的 macbook pro，局域网有 nas
现在 chatGPT image v2 正火（前面测试了100多组 prompt 的文章还没发

看起来资料够了，现在的问题是 PPT 的提纲和分享定位，我的想法有几个点：

不想只推荐某个工具，以前文章也说过，不要追工具
客观的展示工具的优势和问题，上手AI学习要用低摩擦的方式
Agent 和 llm ，和 llm 的特性分不开，用好缺一不可

然后确定了分享的提纲：以 HermesAgent 为开头，讲如何低摩擦上手，把最影响效果，常见的同，几个大坑、甚至是所有 AI 通用的问题讲出来。

并且是实际应用中必须面对和解决的问题，且不是主流论调，是自己的实践经验分享。

准备实施

我很明白，明天就要去外地了，而我不想带电脑。 所以我和我的电脑们的接口只有一个：Hermes。考验 Hermes是不是可以真的可以当做生产力。

素材准备

让 Hermes读到我历史写过的文章：告诉 Hermes本地 PC 的共享目录和 IP，让它挂载我的文章目录，并告诉它读那些目录的文章
让 Hermes挂载我的 Nas 目录（这样我远程看内容更方便，不用每次让 Hermes发给我，而且微信发图片和方便不太方便），存档生产过程中的所有内容随时调用
让 Hermes调用 chatGPT image v2 生成 ppt 每页的图片：
chatGPT image v2 有很强的复杂图片生成能力
可编辑的 ppt 主要原因是要调整，但如果编辑成本低到一定程度时，我可能不需要编辑（本次实验证明完全可用）
这次分享不需要华丽的动画

测试关键步骤可行性

这里我分析主要有 2 个方向需要确定：

chatGPT image v2 生成稳定风格的 ppt 图片
ermes直接操作 chatGPT 网页生成可控性

chatGPT image v2 生成稳定风格的 ppt 图片

先简单试试生成封面和内容，完全没问题…… 剩下的是风格问题而已（不过对我这次任务来说，不重要）

2026-05-07_064629

然后微调一下 ppt 的风格，问题不大，丰简由人。

然后根据这个风格，结合 chatGPT image v2 的特性，让 chatGPT 帮我生成一个 prompt 模板。 后面要用

2026-05-07_064750

由于上下文的特性，和看 image v2 连续生成时的思考过程中发现他会自主参考原来生成的系列图的风格和元素， “风格统一”的解法非常简单： 整个ppt 的图片都在一个对话中生成就可以了。

2026-05-07_064838

ok , 两个可行性中的一个完成。

Hermes直接操作 chatGPT 网页生成可控性

openclaw 的 chrome cdp 跟残废差不多，但是 cdp 相比其它操作 chrome 的方案来说，更加灵活，曾经也试过 AI 视觉方案：通过API 获得屏幕截图，然后 AI 识别图片中的内容给出操作建议，由 Agent 执行返回结果再重复这个这种继续…… 这里慢是肯定的，问题是，还不准。

百折不挠的我，决定再试试 Hermes的 chrome cdp 。因为之前用过 Hermes使用 chrome cdp 做简单操作还行。这次需要做的更复杂一点：