查看: 516|回复: 0

微软开源|纯视觉GUI屏幕解析工具:OmniParser

[复制链接]

4

主题

0

回帖

12

积分

新手上路

积分
12
发表于 2025-4-6 12:16:10 | 显示全部楼层 |阅读模式
OmniParser是一种将用户界面截图解析为结构化和易于理解的元素的综合工具,它显著增强了GPT-4V生成可以在界面相应区域准确定位的动作的能力。
安装步骤:
  1. cd OmniParser
  2. conda create -n "omni" python==3.12
  3. conda activate omni
  4. pip install -r requirements.txt
复制代码

然后确保在weights文件夹中有V2权重(确保标题权重文件夹名为icon_caption_florence)。可以通过如下命令实现:
  1. # download the model checkpoints to local directory OmniParser/weights/
  2.    for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
  3.    mv weights/icon_caption weights/icon_caption_florence
复制代码

运行:




python gradio_demo.py




您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部