今天早上更新了下Codex最新版本,发现有一个控制Chrome的选项,尝鲜一下,这是什么功能。

但是当你真正去下载的时候发现根本不可用,因为暂时对国内用户还没有开发,你会看到下面这个页面。上网查了下,目前还没有对国内用户开放,不过我从网上找了点资料,通过如下方式可以顺利安装和使用。

第一步:打开这个链接:

https://www.crx4chrome.com/crx-downloader/hehggadaopoacecdllhhajmbjkdcmajg  点击如下图选项

第二步:下载完成后,在浏览器右上角点击扩展程序选项,得到如下图,然后把你下载的crx直接拖到这个里面去:

第三步:点击插件的设置

第四步:打开你的Codex APP,点击settings

最后一步:打开浏览器就会发现已经链接,如下图:

通过上述步骤后,你就可以通过Codex控制浏览器了,具体可以这样操作,如下图:

通过安装 Codex Chrome 浏览器插件,Codex 可以直接操作你的 Chrome 页面,比如上面,我给他一个网页,他能给我清晰的说出html有渲染和画图的功能,给人更好体验。

下面我总结了常见的几种使用场景

  • 我们可以给他一堆网页并总结内容,比如新闻、文档、后台页面。让他去看这些页面。可能你会说,这些我自己也可以打开看啊,但如果你用AI开发了一个界面,你感觉有bug,你完全可以把链接丢给他,让他去检查和修复。

  • 操作需要登录态的网站,比如公司内部系统、GitLab、Jira、Confluence、监控平台。特别是一些复杂繁多的监控指标,可以让他直接给出结论,而不用一点点的查看了。

  • 协助我们做一些前端页面测试:点击按钮、填写表单、检查跳转、截图确认 UI。目前貌似是不支持的,但是我确定随着时间的推移,这些功能很快就会更上

  • 辅助排查线上问题:查看页面报错、复现用户路径、确认配置是否生效。

  • 处理重复性网页操作:搜索、筛选、复制页面信息、整理表格内容。

  • 文件上传/下载流程验证,例如上传配置、导出报表。

  • 接管你已经打开的 Chrome 标签页,基于当前页面状态继续操作。

你可能会问,这跟调用浏览器的API比较有哪些优势呢?我觉着有如下优势

  • 首先是低一点,我觉着是最重要的一点。反正在用AI的过程中,我是被这些token、密码折腾的要死,经常配置错误。通过这个插件就不用共享账号密码:Codex 使用你当前 Chrome 的登录态,不需要你把 token、cookie、密码在浏览器中,Codex插件默认就可以使用。

  • 看到真实页面:能处理动态渲染、登录后页面、权限控制页面,比只抓网页源码更准确。

  • 能交互,不只是读取:可以点击、输入、滚动、截图,适合验证流程。

  • 更贴近你的环境:使用你的 Chrome profile、扩展和网络环境,适合公司内网页或 VPN 场景。

  • 适合调试前端:可以打开本地或远程页面,观察实际 UI 和交互结果。

  • 安全边界更清楚:正常不会读取 cookies、本地存储、密码库;涉及提交、删除、发布这类高风险动作时应先确认。

总结来说:普通网页搜索适合查公开资料;Codex 浏览器插件适合让 Codex 像你一样在真实 Chrome 页面里看、点、测、整理,进而提高我们的工作效率。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐