文章来源于互联网:视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器,比如 OpenAI 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告,参阅机器之心报道《我在模拟世界!OpenAI 刚刚公布 Sora 技术细节:是数据驱动物理引擎》。

-
论文标题:VideoAgent: Self-Improving Video Generation -
论文地址:https://arxiv.org/pdf/2410.10076 -
代码地址:https://github.com/Video-as-Agent/VideoAgent
-
该团队受一致性模型的启发,提出了用于视频扩散模型的自我调节一致性(self-conditioning consistency),其可将来自视频扩散模型的低质量样本进一步优化成高质量样本。 -
当可在线访问环境时,VideoAgent 会执行当前视频策略并收集其它成功轨迹,以进一步在成功轨迹上微调视频生成模型。





-
Meta-World:11 个机器人操作任务,由模拟的 Sawyer 机器臂执行,视频演示是从三个不同的摄像机角度拍摄的。 -
iTHOR:一个模拟的 2D 目标导航基准,其中智能体在四种房间类型中搜索指定的目标物体。 -
BridgeData V2:一个真实的机器人操作数据集。






