找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 27|回复: 0

微软开源|纯视觉GUI屏幕解析工具:OmniParser

[复制链接]

1

主题

0

回帖

3

积分

新手上路

积分
3
发表于 4 天前 | 显示全部楼层 |阅读模式
OmniParser是一种将用户界面截图解析为结构化和易于理解的元素的综合工具,它显著增强了GPT-4V生成可以在界面相应区域准确定位的动作的能力。
安装步骤:
  1. cd OmniParser
  2. conda create -n "omni" python==3.12
  3. conda activate omni
  4. pip install -r requirements.txt
复制代码

然后确保在weights文件夹中有V2权重(确保标题权重文件夹名为icon_caption_florence)。可以通过如下命令实现:
  1. # download the model checkpoints to local directory OmniParser/weights/
  2.    for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
  3.    mv weights/icon_caption weights/icon_caption_florence
复制代码

运行:




python gradio_demo.py




您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2025-4-10 08:31 , Processed in 0.094174 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表