微软发布视觉Agent解析框架 OmniParser最新版本V2,可将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。相比前代版本,OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并通过缩小图标描述模型的输入图像尺寸,推理延迟较前代降低60%。

接下来我们将介绍如何在本地linux部署安装OmniParser-V2。

代码:https://github.com/microsoft/OmniParser
模型地址:https://huggingface.co/microsoft/OmniParser-v2.0
or https://modelscope.cn/models/AI-ModelScope/OmniParser-v2.0/summary

OmniParser-V2本地部署安装

1. 环境准备

1.1 下载项目

使用以下命令克隆项目仓库:

git clone https://github.com/microsoft/OmniParser.git
1.2 创建环境并安装依赖

导航到项目目录并运行以下命令来安装所需的依赖项:

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

此时环境一切准备就绪。

2. 下载模型

使用以下命令下载模型文件:

mkdir weights
cd weights
modelscope download --model AI-ModelScope/OmniParser-v2.0 --local_dir ./
mv weights/icon_caption weights/icon_caption_florence

目录结构如下:

📁weights/
      ├──📁 icon_caption_florence/
      │   ├──📁 model.safetensors
      │   ├──📁 generation_config.json
      │   └──📁 config.json
      ├── icon_detect/
      ├── configuration.json
      └── config.json

后续仍需下载多种模型文件,将在后续run步骤中按照运行报错的方式进行介绍。

3. 运行模型

运行以下命令来启动服务:

python gradio_demo.py

此时,如果网络畅通的情况下,程序会自动下载所需的模型文件,并在下载完成后开始运行。如果一切顺利,你将看到模型已部署完成。
在这里插入图片描述
但是,如果网络环境不佳,可能会出现下载失败的情况。此时,你需要手动下载所需的模型文件,并将其放置在相应的目录中。

我们将按照访问受限报错,一步步介绍如何手动下载模型文件。

Q1: easyocr相关
[WARNING] easyocr.py:251 - Downloading detection model, please wait. This may take several minutes depending upon your network connection.
Traceback (most recent call last):
...
ConnectionRefusedError: [Errno 111] Connection refused
[ WARNING] easyocr.py:176 - Downloading recognition model, please wait. This may take several minutes depending upon your network connection.
Traceback (most recent call last):
...
ConnectionRefusedError: [Errno 111] Connection refused

解决办法:
EasyOCR会使用到CRAFT文本检测模型和CRNN文本识别模型,首次使用会自动下载这两个模型。

下载完成后,将这两个模型文件解压后放入~/.EasyOCR/model目录,目录结构如下:

📁home/
 └── 📁user/
      └── 📁.EasyOCR/
                └── 📁model/
                        ├── craft_mlt_25k.pth
                        ├── english_g2.pth
                        └── zh_sim_g2.pth

由此,该问题已解决~

Q2:缺少Florence-2-base-ft模型
Could not locate the configuration_florence2.py inside microsoft/Florence-2-base-ft.
Traceback (most recent call last):
  ...
OSError: [Errno 101] Network is unreachable

解决办法:

mkdir microsoft
cd microsoft
mkdir Florence-2-base-ft
cd Florence-2-base-ft
modelscope download --model AI-ModelScope/Florence-2-base-ft --local_dir ./

下载完成后,目录结构如下:

📁microsoft/
    └── 📁Florence-2-base-ft/
                 └── **

由此,该问题已解决~

Q3: 检测模型相关
download https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar to /home/zhengxu/.paddleocr/whl/det/en/en_PP-OCRv3_det_infer/en_PP-OCRv3_det_infer.tar
[2025/03/12 11:08:22] ppocr INFO: Downloading en_PP-OCRv3_det_infer.tar from https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar failed 2 times with exception HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv3/english/en_PP-OCRv3_det_infer.tar (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fd729495e80>: Failed to establish a new connection: [Errno 101] Network is unreachable'))
[2025/03/12 11:08:23] ppocr INFO: Downloading en_PP-OCRv3_det_infer.tar from https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar failed 3 times with exception HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv3/english/en_PP-OCRv3_det_infer.tar (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fd729495cd0>: Failed to establish a new connection: [Errno 101] Network is unreachable'))
[2025/03/12 11:08:24] ppocr INFO: Downloading en_PP-OCRv3_det_infer.tar from https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar failed 4 times with exception HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv3/english/en_PP-OCRv3_det_infer.tar (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fd729494440>: Failed to establish a new connection: [Errno 101] Network is unreachable'))
Traceback (most recent call last):
...
RuntimeError: Download from https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar failed. Retry limit reached

该问题是由于网络问题导致的,无法连接到PaddleOCR的模型下载地址,因此无法下载检测模型。

与此相关的问题rec、cls模型下载,报错类型与上述类似,解决方法一样~

解决办法:

EasyOCR会使用到CRAFT文本检测模型和CRNN文本识别模型,首次使用会自动下载这两个模型。

下载完成后,将这两个模型文件解压后放入~/.paddleocr/whl/*目录,目录结构如下:

📁 home
 └─📁 user
    └─📁 .paddleocr
       └─📁 whl
           └─📁 rec
            │  └─📁 en
            │  │  └─📁 en_PP-OCRv4_rec_infer
            │  └─📁 ch
            │     └─📁 ch_PP-OCRv4_rec_infer
            └─📁 det
            │  └─📁 en
            │  │  └─📁 en_PP-OCRv3_det_infer
            │  └─📁 ch
            │     └─📁 ch_PP-OCRv4_det_infer
            └─📁 cls
                └─📁 ch_ppocr_mobile_v2.0_cls_infer

由此,所有问题全部解决~

最后我们点击:http://localhost:7861/ 注意替换为本地ip地址,即可看到EasyOCR的web界面,输入图片地址即可进行ocr识别。

在这里插入图片描述

4. 测试实例

测试效果图如下:
在这里插入图片描述


以上就是OmniParser-V2本地部署安装的全部内容,希望对大家有所帮助。

📢 📢 📢
感谢各位阅读,大家的点赞👍- 关注🔥- 收藏⭐ - 评论📝 四连,都是博主坚持协作、更新高质量博文的最大动力!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐