每天上网处理任务时,很多人都会遇到一些重复性操作,比如不断点击、填写表格或切换页面。这些工作不仅费时,还非常枯燥。

虽然有一些工具可以帮助自动化这些操作,但它们通常需要编写复杂的脚本,调试起来也很麻烦。对于没有编程基础的人来说,学习这些工具难度很大,而且它们往往不够灵活,无法应对不同网站的变化。

今天要介绍的这个项目完美解决了这一困境:

这是一个开源的浏览器控制工具,能让 AI 代理直接操作浏览器执行各种任务,无需复杂的编程知识。

只需用自然语言描述需求,AI 就能帮助完成从网上购物到职位申请等各种任务,大大简化了网络操作的自动化过程。

主要功能

Browser-use 提供了一系列强大且易用的功能,让 AI 代理能够无缝控制浏览器:

浏览器自动化:AI 可以打开网页、点击按钮、填写表单、滚动页面等,就像真人用户一样操作浏览器。

任务执行能力:支持多种实用场景,包括:

  • 自动完成网上购物(添加商品到购物车并结账)

  • 根据简历自动搜索并申请工作

  • 将 LinkedIn 联系人添加到 Salesforce 等 CRM 系统

  • 在 Google Docs 中创建和编辑文档

简单易用的 API:提供简洁的 Python 接口,只需几行代码即可配置和启动 AI 代理。

云端托管选项:除了本地部署外,还提供云服务版本,无需任何设置即可使用。

丰富的示例库:包含大量实用场景的代码示例,便于快速上手和参考。


安装指南

安装 Browser-use 非常简单,只需几步操作就能让 AI 为我们工作。整个过程对于有基本 Python 知识的用户来说非常友好。

1、首先确保系统安装了 Python 3.11 或更高版本,然后使用 pip 安装 browser-use:

pip install browser-use

2、安装必要的浏览器自动化工具 Playwright:

playwright install

3、创建一个 .env 文件,添加所需的 API 密钥(例如 DeepSeek R1 的 API 密钥):

DEEPSEEK_API_KEY=你的密钥

使用指南

使用 Browser-use 开始自动化浏览器任务只需几行代码:

from langchain_openai import ChatOpenAI
from browser_use import Agent
from pydantic import SecretStr
import asyncio
# Initialize the model
llm=ChatOpenAI(base_url='https://api.deepseek.com/v1', model='deepseek-reasoner',api_key=SecretStr(api_key))

async def main():    
    agent = Agent(        
        task="比较 gpt-4o 和 DeepSeek-V3 的价格",
        llm=llm,
        use_vision=False    
    )    
    await agent.run()

asyncio.run(main())

只需在 task 参数中描述想要执行的任务,AI 代理就会启动浏览器并自动完成操作。

同时可以根据需要更换不同的 LLM 模型,或添加更多自定义功能。

GitHub 项目地址:https://github.com/browser-use/browser-use

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐