让AI知识触手可及

首页 » 让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

文章来源于互联网:让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。

为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。

这样一个系统不仅要能完全理解屏幕内容,还要能关注屏幕内的特定 UI 元素。以视觉理解为基础,它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。

为了满足这些要求,必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 – 语言模型。其中,确定相关元素位置这一任务通常被称为 grounding,这里我们将其译为「定基」,取确定参考基准之意;而引述(referring)是指有能力利用屏幕中特定区域的图像信息。

多模态大型语言模型(MLLM)为这一方向的发展带来了新的可能性。近日,苹果公司一个团队提出了 Ferret-UI。

17
12 月
2025
16
12 月
2025
12
12 月
2025
12
12 月
2025
11
12 月
2025
11
12 月
2025
10
12 月
2025
09
12 月
2025
09
12 月
2025
08
12 月
2025
06
12 月
2025
04
12 月
2025
03
12 月
2025
30
11 月
2025
28
11 月
2025
最新提问
🎉🎉🎉AI问答功能上线喽!!
安装pytorch的时候提示拒绝访问
已经成功安装pytorch,但是import时提示"找不到指定的模块"
Pytorch安装后不能使用的问题
YOLO模型训练时提示报错
YOLO的安装使用报错问题
有哪些GPU云环境可以使用
公众号
滚动至顶部
0
希望看到您的想法,请您发表评论x