北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

首页 » 北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

文章来源于互联网:北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近年来，随着多模态大模型的崛起，视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量，这些模型往往采用复杂的架构设计，并依赖于大规模训练数据集。受限于高昂的计算资源成本，模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。同时，由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库，因此项目仍然具有组件化与可扩展性等优点，使用者可以根据自身需求进行定制与拓展研究。

论文地址：https://arxiv.org/abs/2501.15513
Github 项目：https://github.com/ZhangXJ199/TinyLLaVA-Video

全开源项目，支持定制与拓展

区别于众多仅开源模型权重的项目，TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集，也延续了原有的模块化设计架构，研究人员可根据具体实验需求，灵活替换语言模型、视觉编码器等核心组件，并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛，还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。

在模型架构方面，TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision Tower+Connector+LLM 框架，并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议，包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块，确保了实验的可复现性，为研究者提供了可靠的基准参考。同时，研究人员可以方便地替换模型组件，更改训练策略，定制符合自身需求的视频理解模型。

在训练数据方面，TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时，为进一步精简数据集，提高训练数据的质量并控制计算资源成本，项目对训练数据进行了多步筛选与过滤，最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源，也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息（annotation）也已经完整公开于 HuggingFace 平台，这也为后续研究提供了高质量的数据基础。

小尺寸简易框架，依然保持高性能

以往的视频理解方法受限于语言模型的输入长度限制，往往面临两难选择：要么通过设计复杂的模型架构来处理长序列信息，要么牺牲视频信息的完整性而限制采样帧数。因此，如何处理长时序视觉序列，并平衡计算资源与性能之间的矛盾，成为轻量级视频理解模型亟待解决的问题。

为在保持模型结构轻量化的同时解决长序列信息处理的问题，TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列，使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言，从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略，研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样，设置不同的视频采样帧数。

虽然简化模型架构并控制训练数据的规模，但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明，整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B + 模型，充分验证了该框架的有效性。

此外，该研究也进行了大量实验，系统性地探索了不同配置下的模型性能，包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响（实验设置与结果详见技术报告）。这些实验结果揭示了在不同参数设定下，模型在视频理解任务中的表现，为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性，也为后续研究提供了重要的参考依据。