文章来源于互联网:给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文地址: arxiv.org/abs/2501.00958 -
Code: https://github.com/DAMO-NLP-SG/multimodal_textbook


-
图文对数据 (image-text pair corpus):多模态模型通常依赖大量图文对数据进行预训练,这种数据能快速对齐图像与文本。 -
图文交错数据集 (image-text Interleaved corpus):如 MMC4, OBELICS 等数据集,它们引入了更加自然,更加灵活的图文任意交织形式。这些语料由穿插着图像的文本段落组成,通常是从网页和文档(如 Common Crawl)中抓取的。与图像 – 文本对数据相比,图文交错语料库使 VLMs 能够更自然地处理任意输入,像人类一样理解世界。


-
知识分类体系的构建:我们创建了一个四层的知识分类体系,包括学科(Subject)、课程(Course)、子课程(Sub-course)和知识点(Knowledge Point),然后使用 LLM 来自动构建这个分类体系。 -
涵盖数学、物理、化学、地球科学、工程学和计算机科学六大学科,共计 55 门课程,细化为 3915 个知识点。 -
示例:数学(学科) → 小学数学(课程) → 有理数与无理数 (子课程) → 无理数的定义 (知识点)。

-
教学视频的收集和过滤: -
以构建的知识体系中的每个知识点为检索关键词,利用在线视频网站 (例如 YouTube) 的 API 搜索相关教学视频的元数据,每个知识点保留排名靠前的 50 个视频。然后我们利用 LLM 对所有视频元数据进行审查 (视频标题,简介,评论等),过滤不合适的视频,并且去除重复的视频。

-
音频提取与转录(ASR):使用 FFmpeg 提取音频,并通过 Whisper 模型进行转录,将视频的讲解转化为文本。 -
转录文本质量:由于教程语音的口语化特点,ASR 文本的困惑度(PPL)较高。我们通过 LLM 重写转录文本,提升其流畅性与连贯性,同时保持原始语义不变。 -
视频质量评估:通过 LLM 对转录文本进行分析,按以下标准过滤低质量视频: -
相关性:确保转录文本与目标知识点匹配,剔除与教学内容无关的视频(如广告、综艺片段)。 -
知识密度:剔除知识点稀疏、包含大量无意义填充词的视频,如 “嗯”“然后我们得到这个” 等口语表达。 -
转录质量:删除 Whisper 转录质量较低的文本,例如重复、识别错误的文本。
-
视频分割:为实现文本与帧的时间对齐。我们现合并多个 ASR 片段,形成具有完整语义的句子。然后利用合并后的 ASR 的时间戳将长视频切分为 10-20 秒的短片段 (video clip),每个 video clip 包含一段语音文本和对应的视频帧。 -
视觉知识和文本知识匹配: -
使用 VideoLlama2 为每个 video clip 生成详细描述 (caption); -
计算 video clip 的 caption 与 ASR 文本的相似度,剔除视觉内容与文本内容不匹配的片段,或者剔除无信息量的 clips(例如如过渡场景,仅有演讲者的画面或者严重遮挡的画面)。这些 clips 的视觉信息虽然过滤了,但是对应的 ASR 依然保留在 textbook 中。
-
关键帧检测:通过计算连续帧之间的结构相似性( Structural Similarity Index, SSIM),提取视觉变化显著的帧,迭代式地过滤掉重复或冗余的画面。 -
OCR 文本提取:由于教学视频中常包含文本、公式和符号等重要知识,我们使用先进的 VLMs(如 InternVL)对关键帧进行 OCR,这些内容往往蕴含重要的教学知识,作为 ASR 的补充。
-
教学视频和知识点统计

-
Textbook 统计


-
我们设计了一个作弊测试(cheat test) 来测试 VLMs 是否能有效感知图文交织的上下文。 -
Cheat-test: 我们将 few-shot example 中的某个示例替换成测试样本,观察模型是否能快速识别 prompt 中的已经包含了测试样本。

-
Cheat-test 显示在 1-shot 和 2-shot 场景下,相比 MMC4 和 OBELICS,textbook 有近 20% 的显著优势。这表明来自视频的 textbook 训练语料让 VLMs 能更关注输入图文交织的 context,并且能利用 context 中的线索回答问题。例如在 MathVista 任务中,Textbook 训练的模型在 1-shot 设置下准确率达到 94.1%,远超 MMC4 的 72.6%。

文章来源于互联网:给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料