文章来源于互联网:让AI像人类一样操作手机,华为也做出来了
用不了多久就要实装了?
先是微软发布了商业智能体,随后 Anthropic 推出了升级版大模型 Claude 3.5 Sonnet。它能够根据用户指令移动光标,输入信息,像人一样使用计算机。
就在同一天,荣耀正式推出了 MagicOS 9,通过 AI 智能体开启了「自动驾驶」手机的新模式。只需要跟语音助手说我要点杯美式,AI 就会自动点开美团,选择瑞幸的门店下单,你只需要最后点击付款就可以了。


-
论文标题:Lightweight Neural App Control -
论文地址:https://arxiv.org/pdf/2410.17883
AcT 是负责预测动作类型的模型(之后还会点击目标),其是基于一种经典 Transformer 架构构建的。但不同于标准 Transformer(其 token 是文本或字符),AcT 的 token 是映射到 Transformer 的隐藏维度的预训练的嵌入。如图 1 所示。







是 p 的每一行的 L2 范数。为了简单,这里去掉了上标。于是,交互事件中 UI 元素选择的 InfoNCE 损失的计算方式如下:



文章来源于互联网:让AI像人类一样操作手机,华为也做出来了

