文章来源于互联网:统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
本文引入了 Transfusion,这是一种可以在离散和连续数据上训练多模态模型的方法。
-
论文地址:https://arxiv.org/pdf/2408.11039 -
论文标题:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
应用于文本 token 的预测;将扩散目标
应用于图像 patch 的预测。总损失可以表示为如下形式:










