文章来源于互联网:OS-Genesis来了,自动收集和标注Agent数据,高效且多样
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
共同一作孙秋实是香港大学的博士生,此前在新加坡国立大学获得硕士学位,研究方向包括 LLM Agents 和神经代码智能等领域。共同一作金川杨是约翰霍普金斯大学的博士生,此前以专业第一名毕业于纽约大学,其开发的心智能力测试 MMToM-QA 荣获 ACL 2024 杰出论文奖。本文的 Shanghai AI Lab 吴志勇团队此前已发布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。

-
论文题目:OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis -
项目地址:https://qiushisun.github.io/OS-Genesis-Home/ -
研究机构:上海人工智能实验室,香港大学,上海交通大学,约翰霍普金斯大学,牛津大学,香港科技大学
-
高阶指令:明确规定任务目标,例如 “将 Broccoli 应用中的‘Avocado Toast with Egg’标记为收藏”。 -
低阶指令:分解为具体的操作步骤,例如 “点击‘Avocado Toast with Egg’以查看更多选项”。 -
动作:与低阶指令相关的具体操作,如 “CLICK [Avocado Toast with Egg]”。 -
状态:包括执行动作前后的可视化和文本化表示,例如屏幕截图和 GUI 的 a11ytree 结构。



-
完成度(Completion):衡量轨迹是否成功完成高阶任务,包括每个步骤的正确性和逻辑连贯性。 -
一致性(Coherence):评估轨迹的逻辑性,确保动作序列能够高效地实现任务目标。

-
InternVL2-4B/8B:一种支持高分辨率动态输入的开源 VLM,主要用于视觉任务。其扩展版本 InternVL2-8B 具有更大的模型容量。 -
Qwen2-VL-7B-Instruct:一种多模态模型,具备一定的 GUI 交互能力,专为指令执行任务优化。
-
Zero-Shot:直接使用未经过额外训练的模型完成任务。这种方法用于评估模型的原始能力。 -
Task-Driven:利用预定义任务和固定策略生成数据,广泛应用于传统数据生成流程。 -
Self-Instruct:在 Task-Driven 的基础上,引入自我指令生成机制来扩展任务的和覆盖范围。


-
动态环境适配性:人工编写的任务往往难以与复杂环境完全匹配,而 OS-Genesis 通过反向任务合成生成的指令能够自适应 GUI 动态特性,更符合环境需求。 -
逐步生成策略:OS-Genesis 从低阶指令逐步构建高阶指令,确保了指令的逻辑连贯性和可执行性,而人工编写的高阶指令有时会因缺乏细节而导致轨迹不完整。


文章来源于互联网:OS-Genesis来了,自动收集和标注Agent数据,高效且多样
