控制电脑手机的智能体人人都能造，微软开源OmniParser - 一起AI技术

让AI知识触手可及

首页 » 控制电脑手机的智能体人人都能造，微软开源OmniParser

文章来源于互联网:控制电脑手机的智能体人人都能造，微软开源OmniParser

大模型控制计算机果真就是未来方向？

最近这几天，让大模型具备控制计算机（包括电脑和手机）的相关研究和应用如雨后春笋般不断涌现。

先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet，之后荣耀 MagicOS 9.0 来了个全局智能体，再然后，昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM，同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

很显然，这股热潮完全没有要停息的意思。今天，有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本（分别基于 Gemma 2B 和 Llama 8B），这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术，详情参阅《让大模型理解手机屏幕，苹果多模态 Ferret-UI 用自然语言操控手机》。

^{来自 X 用户 Niels Rogge}

Ferret-UI 项目地址：https://huggingface.co/papers/2404.05719

不仅如此，微软也低调开源了他们的相关研究 OmniParser，这是一个基于大模型的屏幕解析工具，可将 UI 截图转换成结构化的元素；据称其解析和理解 UI 的能力达到了当前最佳水平，甚至超越了 GPT-4V。

项目地址：https://huggingface.co/microsoft/OmniParser
代码地址：https://github.com/microsoft/OmniParser
论文标题：OmniParser for Pure Vision Based GUI Agent
论文地址：https://arxiv.org/abs/2408.00203

有了这个工具，或许每个人都可以创建自己的计算机操控智能体了。

先来看看 OmniParser 的效果。对于一个用户任务：「将约翰内斯堡提供素食选择的餐厅保存到我的行程中」。

OmniParser 首先会解析 Tripadvisor 网页屏幕上的所有元素，然后它成功从中找到了「餐厅」选项。之后它点击（动作执行需要搭配其它模型）该选项，打开了一个搜索框。OmniParser 继续解析，这一次没有在屏幕上找到所需关键词，于是它在搜索框中输入了「约翰内斯堡」。再次解析后，它打开了相应的搜索项，展开了搜索结果。同样，继续解析，它成功定位到了素食选项，然后进行了勾选。最后，点击筛选出的第一个选项上的相应按钮将其收藏到行程中。至此，任务完成。

而如果你想看看能否进入布莱斯峡谷国家公园呢？OmniParser 也能助你轻松完成。

整体来看，OmniParser 的解析能力非常出色，过程也还算流畅。

我们知道，不同的操作系统和应用有着大不相同的交互界面。为了稳健地应对各种不同情况，屏幕解析模型需要：

可靠地识别交互界面内可交互的图标；
理解屏幕截图中各种不同元素的含义，并将计划动作与屏幕上相应的区域准确地关联起来。

OmniParser 正是为这一目的而生的。OmniParser 可基于用户任务和 UI 截图输出：(1) 解析后的截图，带有边界框和数值 ID，(2) 包含提取出的文本和图标描述的局部语义。下面展示了几个例子：

如果再搭配上其它可以基于 UI 采取行动的模型（比如 GPT-4V、Phi-3.5 和 Llama 3.2），便可以创造出可以理解并控制计算机的智能体。

该团队用 GPT-4V 做了实验，结果发现 OmniParser 能大幅提升其为界面区域生成精准动作的能力。他们使用 OmniParser 和 GPT-4V 创建的一个智能体在 WindowsAgentArena 基准上达到了最佳水平。

OmniParser 是如何炼成的？

收集和整理专用数据集 ——OmniParser 的开发始于创建两个数据集：

一个可交互区域检测数据集，该数据集收集整理自常见的网页，其中可点击和可操作的区域都做了标注。
一个图标描述数据集，旨在将每个 UI 元素与其相应的功能关联起来。在训练模型以理解检测到的元素的语义方面，此数据集非常关键。

下面展示了可交互区域检测数据集的一些样本示例。

对检测和描述模型进行微调 ——OmniParser 使用了两个互补的模型：

一个检测模型，在可交互图标数据集上进行了微调，其能可靠地识别屏幕截图中的可操作区域。
一个描述模型，在图标描述数据集上完成了训练，其作用是提取检测到的元素的功能语义，为预期操作生成准确符合上下文的描述。

性能表现

该团队对自己的方法进行了实验验证。结果发现，OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基准上的性能。

在 Mind2Web 基准上，OmniParser + GPT-4V 的表现也胜过可从 HTML 提取额外信息的 GPT-4V。

在 AITW 基准上，OmniParser 的表现优于一个经过增强的 GPT-4V—— 附带了一个使用视图图层训练的专用 Android 图标检测模型。

另外，其在新基准 WindowsAgentArena 上也达到了最佳性能。

OmniParser 可作为当前各种视觉 – 语言模型（VLM）的插件。为了进一步演示这一点，该团队也测试了其与 Phi-3.5-V 和 Llama-3.2-V 的组合。

该团队表示：「我们希望 OmniParser 可以作为一种通用且易于使用的工具，在 PC 和移动平台上解析用户的屏幕，而无需依赖 HTML 和 Android 中的视图图层等额外信息。」

不知道如果将 OmniParser 与新版 Claude 3.5 Sonnet 的 Computer Use 结合起来会是什么效果？可能会像这位网友说的，很赞吧。

^{参考链接：}

^{https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/}

^{https://x.com/mervenoyann/status/1849772138166727128}

^{https://x.com/NielsRogge/status/1849789061508055339}

文章来源于互联网:控制电脑手机的智能体人人都能造，微软开源OmniParser

AI 太烧钱！微软选择「倒戈」DeepSeek

27

6 月

2026

Claude Code 修了几个小 bug，却揭开了 Agent 落地的大麻烦

27

6 月

2026

LiblibAI 母公司完成近 3 亿美元融资：AI 应用层开始进入「收入说话」的阶段

27

6 月

2026

超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

27

6 月

2026

7 年 Google 老兵写出爆款工具被开除，转头官方发同款？OpenClaw 之父下场抢人

27

6 月

2026

马斯克悄悄改了战场：Grok Build 0.2.60 剑指 Agent Runtime

27

6 月

2026

这次是阿里！中国的大模型团队快被 Anthropic 告完了

27

6 月

2026

行业首个！大晓「晓途」开启机器狗开放场景7×24小时自主运营新模式

26

6 月

2026

Fable 5 刚被封杀，OpenRouter 用「多模型协作」搞出了「平替天团」

25

6 月

2026

别让 AI 碰生产环境！Reddit 火爆血泪贴，痛诉 AI 如何一刀切断数据库生命线

24

6 月

2026

算电协同进入Agent时代：商汤大装置SenseSynergy获信通院能力认证

18

6 月

2026

独家丨华为天才少年王裕鑫创业，首月完成数千万级首轮融资

18

6 月

2026

CVPR 2026完美落幕！D4RT封神最佳论文、牛津VGG两连冠，中国本科生泰坦显卡逆袭引爆全网

18

6 月

2026

SoulAgent 即将亮相北京智源大会，探索个人智能体在知识服务场景中的应用

18

6 月

2026

从诺奖项目到生成式药物设计，Latent Labs 创始人 Simon Kohl：AI 正在让生物学进入「可编程时代」 | CVPR 2026

18

6 月

2026

最新提问

🎉🎉🎉AI问答功能上线喽！！

2024-11-30

Dongming

安装pytorch的时候提示拒绝访问

2024-11-30

7083

已经成功安装pytorch，但是import时提示"找不到指定的模块"

2024-11-30

7083

Pytorch安装后不能使用的问题

2024-11-30

7083

YOLO模型训练时提示报错

2024-11-30

7083

YOLO的安装使用报错问题

2024-11-30

7083

有哪些GPU云环境可以使用

2024-11-27

Dongming

公众号