让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

首页 » 让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

文章来源于互联网:让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。

移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时，我们通常是用眼睛看，用手执行对应操作。如果能将这个感知和交互过程自动化，用户也许能获得更加轻松的使用体验。此外，这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。

为了在用户界面内实现感知和交互的无缝自动化，就需要一个复杂的系统，其需要具备一系列关键能力。

这样一个系统不仅要能完全理解屏幕内容，还要能关注屏幕内的特定 UI 元素。以视觉理解为基础，它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。

为了满足这些要求，必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 – 语言模型。其中，确定相关元素位置这一任务通常被称为 grounding，这里我们将其译为「定基」，取确定参考基准之意；而引述（referring）是指有能力利用屏幕中特定区域的图像信息。

多模态大型语言模型（MLLM）为这一方向的发展带来了新的可能性。近日，苹果公司一个团队提出了 Ferret-UI。

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

12 月

2025

对话Noitom Robotics CEO戴若犁：没有人比我更适合解决机器人的数据问题 | GAIR 2025

12 月

2025

对话英诺王建明：机器人目前面临的核心问题是数据 | GAIR 2025

12 月

2025

IDCC 2025：全球进入算力效能竞争期，商汤大装置给出中国式解决方案

12 月

2025

IDC MarketScape：商汤科技位居中国AI咨询服务市场领导者类别

12 月

2025

金融智能体进入规模落地期蚂蚁数科被评综合领导者

12 月

2025

铭凡 MINISFORUM 联合 AMD 带来两款 AI 旗舰产品

12 月

2025

仅有一位作者的论文，却补上了城市智能的「最后一公里」

12 月

2025

趋境科技与金航数码拓展人工智能合作场景，支持空天领域数字化建设

12 月

2025

探索机器人“无遥操”，ATEC2025科技精英赛在港收官

12 月

2025

戴尔科技集团 x OpenCSG，推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

12 月

2025

NTU S-Lab 团队探索可动 3D 新方向：结构、关节、纹理一次到位

12 月

2025

腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

12 月

2025

GAIR 2025 世界模型论坛：走向真实智能的起点

11 月

2025

BFM-Zero，让人形机器人不再依赖高质量动捕数据

11 月

2025

全部资讯

最新提问

公众号