文章来源于互联网:突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文共同第一作者为上海交通大学 ACM 班的三年级本科生何彦衡,金嘉禾,两人均为 GAIR 实验室成员,指导老师为刘鹏飞副教授。上海交通大学生成式人工智能实验室 (GAIR Lab)的主要研究方向为:大模型的复杂推理,大模型预训练中的数据工程,多模态大模型,以及智能体。实验室主页:https://plms.ai/
想象这样一个场景:深夜 11 点,你已经忙碌了一天,正准备休息,却想起明天早上还得分享一篇经典论文《Attention Is All You Need》,需要准备幻灯片。这时,你突然想到了自己的 AI 助手 —— PC Agent。你告诉它演讲的要点以及 PPT 要保存的地方,然后就安心睡去。第二天醒来,一份内容完备、制作精美的 PPT 已经在电脑中准备妥当。
这个听起来如同科幻的场景,已经被上海交通大学 GAIR 实验室的研究者们变成了现实!他们提出认知迁移的方法,通过高效收集人类认知轨迹,打造(训练,非 API 调用)了能够像人类一样阅读电脑屏幕,精准操控键盘鼠标,执行长达数十步、跨软件的复杂生产任务的 PC Agent,标志着 AI 真正为人类减负的重要一步!
Sam Altman 说,比起让智能体「订一家餐厅」,真正有趣的是让它「咨询 300 家餐厅」来找到最符合的口味。这样大量重复性的工作,对 PC Agent 而言也不在话下。比如,它可以一口气为多位图灵奖得主分别制作海报: 

此外,PC Agent 也能轻松对标类似 Claude 3.5 Sonnet 的演示任务 —— 展现 “AI 调用 AI” 完成工作的巧妙设计。视频展示了它如何为自己创造一个网站:

-
论文标题:PC Agent: While You Sleep, AI Works – A Cognitive Journey into Digital World -
论文地址:https://arxiv.org/pdf/2412.17589 -
代码地址:https://github.com/GAIR-NLP/PC-Agent









文章来源于互联网:突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
