0 引言
OmniParser是微软开源的一种屏幕解析工具,提供了一种将用户界面截图解析为结构化元素的综合方法,通过此方法可以对UI界面进行可交互元素的提取和描述,然后将此结构化信息和任务指令,输入到大模型中,以增强大模型对用户界面的动作预测能力
论文: https://arxiv.org/pdf/2408.00203
项目: https://github.com/microsoft/OmniParser
huggingface: https://huggingface.co/microsoft/OmniParser
1 项目背景
大型视觉模型在理解和操作用户界面方面展现出巨大的潜力,但是现有的模型在实际表现中不尽人意,项目组认为原因是:让GPT-4V这类大模型同时完成屏幕元素解析和动作预测两个任务,对模型负担太重。
所以提出一种屏幕解析工具,来单独完成屏幕元素解析任务,只让大模型专注于动作预测任务,以此来增强大模型在各种用户任务中的动作预测能力,再与自动化工具结合形成更加强大的Agent系统
2 项目目标
开发一种通用的、跨平台的屏幕解析工具。
核心思想: 利用纯视觉信息来解析用户界面(UI)截图,将其转换成结构化的元素,而不依赖于任何特定平台的额外信息
3 项目效果
OmniParser显著提高了GPT-4V的动作预测性能,而且性能超过了使用HTML信息的GPT-4V模型,同时在完成移动导航任务时整体得分提高了4.7%
4 框架结构
当用户的界面UI图输入后:
- 经过一个交互图标检测模型(项目中使用的是微调后的YOLO V8),识别出那些地方是可交互的,并为其添加边界框和唯一ID。
- 对检测出来的可交互区域,使用一个功能描述模型(项目中使用的是微调后的BLIP-2)去描述该图标的功能
- 同时还有一个OCR模型(项目中使用的是Paddle OCR)去识别文字,并为其添加边界框和唯一ID,如果交互图标的边界框和文字边界框重叠度有90%,则共用一个框和ID
- 最后输出一个标注好的UI界面图,以及对应的功能描述和文本描述内容
5 微调的YOLO和BLIP
论文中未给出具体的数据集格式,下列左图是推测的微调YOLO的数据集格式,右图是微调BLIP的前后对比
微调后的BLIP-2由描述图标的形状、颜色,转为描述图标的功能
6 项目本地部署
6.1 创建新的conda环境并激活
conda create -n omni python=3.12
conda activate omni
6.2 git导入项目、下载依赖
git clone https://github.com/microsoft/OmniParser.git
会生成一个文件夹
里面有个requirements.txt,是我们所需要的依赖,进入该目录中,直接pip安装依赖
cd ./OmniParser
pip install -r requirements.txt
等待依赖安装
6.3 下载模型权重
创建一个新的文件夹用于保存模型权重,使用git和个git lfs拉取
git clone --depth 1 https://huggingface.co/microsoft/OmniParser .
git lfs install
git lfs pull
把下载下来的权重放到项目的weight文件夹中,结构如下:
weights/icon_detect
weights/icon_caption_florence
weights/icon_caption_blip2
然后在omni环境中,运行文件夹中的python程序:
python convert_safetensor_to_pt.py
出现下列结果则运行成功:
7 使用方法
7.1 界面解析
我这里使用的是文件夹里面的demo
可以在这个地方修改你要输入的图片:
最后输出标注好的UI界面图,和对应的功能描述与文字描述
7.2 大模型动作预测
下面是标注好的UI界面图
然后下面是我的提示词(功能描述太长,这里只展示局部)
this is my ui,i want to search for paper with lstm as the title,how should i operate?
there are the contents of the ui interface:['Text Box ID 0: | 8demo',
'Text Box ID 1: x|A #t',
'Text Box ID 2: xX arXiv.org e-Print archive',
'Text Box ID 3: +',
'Text Box ID 4: C',
'Text Box ID 5: 6htt ps:/arxiv.org',
'Text Box ID 6: Algorithm Visu..',
......]
大模型输出结果:
这里是用的通义大模型
8 方案缺陷
8.1 不支持中文
解决方法: 重新制作中文数据集进行微调
8.2 当解析结果包含重复图标/文本时,大模型可能无法做出正确的预测
如上图那样有重复的图标时,大模型可能无法理解应该操作哪一个
解决方法: 对重复元素添加更细致的描述,以便让大模型意识到重复元素的存在(原文用的potential,即该方法未经验证)
8.3 无法识别文本内容中的超链接
解决方法: 训练一个模型将 OCR 和可交互区域检测组合成一个模块,从而可以检测可点击的文本/超链接。
8.4 图标误解
把上图(局部)输入给大模型,想点击“更多”,理论上应该点击BOX_26
,但是实际上功能描述模型把BOX_26
描述为“缓冲/加载”,导致大模型可能无法准确的预测动作
解决方法: 训练知道图像完整”上下文”的图标功能描述模型。(原文用的potential,即该方法未经验证)