文章来源于互联网:首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
本文作者来自于香港中文大学深圳和深圳大数据研究院。其中第一作者为香港中文大学深圳博士生王熙栋和研究助理宋定杰,主要研究方向分别为医疗AGI和多模态学习;博士生陈舒年研究方向为多模态学习,博士生张辰研究方向为高效语言模型。通讯作者为香港中文大学深圳数据科学学院王本友教授。
-
论文地址:https://arxiv.org/abs/2409.02889 -
项目地址:https://github.com/FreedomIntelligence/LongLLaVA
-
对于多模态架构,采用结合 Transformer 和 Mamba 的混合架构,并提出了一种高效图像表示方法,该方法对图像 Token 应用 2D 池化以降低计算成本同时保持性能。 -
对于数据构建,为不同的任务设计了独特的格式,使模型能够区分图像之间的时间和空间的依赖关系。 -
在训练策略方面,采用了一种三阶段的多模态自适应方法 —— 单图像对齐、单图像指令调整和多图像指令调整 —— 以逐步提升模型处理多模态长上下文的能力。
-
常规单图和多图输入:使用 帮助模型区分图像和文本 Token 。
-
视频:在不同的帧之间添加 ,以表示它们之间的时间依赖性。 -
高分辨率图像:使用换行符 “n” 来区分主图像与其子图像。 对于子图像的排列,通过从左上角遍历到右下角的方式进行分割,在分割行之间添加”n”以保留子图像的相对空间位置。
