文章来源于互联网:控制电脑手机的智能体人人都能造,微软开源OmniParser
大模型控制计算机果真就是未来方向?

-
Ferret-UI 项目地址:https://huggingface.co/papers/2404.05719

-
项目地址:https://huggingface.co/microsoft/OmniParser -
代码地址:https://github.com/microsoft/OmniParser -
论文标题:OmniParser for Pure Vision Based GUI Agent -
论文地址:https://arxiv.org/abs/2408.00203



-
可靠地识别交互界面内可交互的图标; -
理解屏幕截图中各种不同元素的含义,并将计划动作与屏幕上相应的区域准确地关联起来。



-
一个可交互区域检测数据集,该数据集收集整理自常见的网页,其中可点击和可操作的区域都做了标注。 -
一个图标描述数据集,旨在将每个 UI 元素与其相应的功能关联起来。在训练模型以理解检测到的元素的语义方面,此数据集非常关键。

-
一个检测模型,在可交互图标数据集上进行了微调,其能可靠地识别屏幕截图中的可操作区域。 -
一个描述模型,在图标描述数据集上完成了训练,其作用是提取检测到的元素的功能语义,为预期操作生成准确符合上下文的描述。






文章来源于互联网:控制电脑手机的智能体人人都能造,微软开源OmniParser