文章来源于互联网:清华、华为等提出iVideoGPT:专攻交互式世界模型
iVideoGPT,满足世界模型高交互性需求。

-
论文地址:https://arxiv.org/pdf/2405.15223 -
论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models

包含丰富的上下文信息,通过 N 个 token 独立地进行 token 化和重构:-
首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多; -
其次,通过条件编码,预测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。
。特殊的 slot token [S] 被插入以划定帧边界,并促进额外低维模态(如动作)的融合。如图 3b 所示,一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来进行交互式视频预测。在这项工作中,该团队使用了 GPT-2 的模型大小,但采用了 LLaMA 架构,以便利用 LLM 架构的最新创新,如旋转位置嵌入。





文章来源于互联网:清华、华为等提出iVideoGPT:专攻交互式世界模型




