文章来源于互联网:ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解决上述问题,并推动多领域、多步和多模态思维链的进步。研究者们还进行了全面的评估,涉及丰富的多模态推理设置与方法。
研究者们还发现当前的多模态大模型在
上的表现存在巨大的性能缺陷,尽管它们在以前的传统多模态思维链基准上表现优异。最后,研究团队希望
能够成为一个有价值的资源,为多领域、多步和多模态思维链的研究提供开创性的基础。
-
榜单地址:https://lightchen233.github.io/M3CoT.github.io/leaderboard.html -
论文地址:https://arxiv.org/abs/2405.16473 -
代码地址:https://github.com/LightChen233/M3CoT
,并希望推动多领域、多步和多模态思维链的研究与发展。
的构建涉及如下四个关键阶段:-
视觉模态推理缺失样本移除:首先,为解决视觉模态推理缺失的问题,
利用自动和手动相结合的方式移除了那些无需图像即可得出答案的样本。 -
多步多模态样本构建:这一阶段中,为了保证基准满足多步多模态的要求,
首先自动的去除了推理路径过短的样本,随后通过手动去除和优化样本,确保每一个样本确实需要跨模态的多步推理。 -
多模态 CoT 领域增强:此外,
通过引入数学和常识领域的数据,将 LaTeX 代码转为图片,并利用大模型生成更多的问题、推理路径和答案,增强了基准的多样性和挑战性。 -
质量检查:为了保证数据集的质量,
实施了多轮人工审核和自动检测,确保数据的一致性和准确性。
-
开源模型与 GPT4V 仍有差距:尽管这些模型在现有基准测试中表现优异,但在
上的表现仍有显著差距。尤其是当前的开源 VLLMs 在多步多模态推理方面表现不佳,与 GPT4V 相比存在显著差距。 -
GPT4V 与人类仍有差距:此外,尽管 GPT4V 在
上的表现优于其他 VLLMs,但与人类表现相比仍存在显著差距。这表明,当前的 VLLMs 在处理复杂的多模态推理任务时仍需进一步改进。 -
多模态思维链涌现现象:视觉大模型在参数级别超过 100 亿(≥13B)时表现出思维链涌现现象。 
上获得更好的表现。研究者们提供了更全面的分析,从而揭示了当前 VLLMs 在多步多模态推理方面的显著不足,为未来的优化提供了方向。-
单步推理任务的表现远优于多步推理任务。模型在解决多步多模态推理时性能与单步多模态推理有接近 30% 的差距,且随步骤数增加,性能递减。这表明模型在处理复杂多步骤推理时仍存在困难。 -
提高模型生成的推理过程质量对于提升
的表现至关重要。通过评估多维度的推理质量,研究者们观察到推理质量的提升与
的性能呈现指数级相关关系。提升多模态推理的逻辑质量是解决
的关键瓶颈之一。

-
多模态信息交互的增加能够显著提升模型的推理性能。由于
要求推理时动态的包含多个跨模态推理步骤,则至少有 2 步跨模态推理,而现有模型推理过程中,平均的跨模态推理步骤数小于 1。这说明未来的研究应注重提高推理过程的质量和多模态信息的交互,以解决当前模型在
上的表现不足。
中的问题。
上表现不佳:实验结果表明,尽管这些工具在单模态任务中表现良好,但在
基准上的表现仍存在显著差距。例如,HuggingGPT 在处理复杂的多步推理任务时,由于缺乏对视觉信息的有效利用,表现较为逊色。此外,VisualChatGPT 和 IdealGPT 在处理需要多模态交互的任务时,表现也未能达到预期。这些结果表明,当前的工具使用框架需要进一步改进,以更好地整合和利用多模态信息。
上的性能:实验结果显示,对于纯文本示例来说,这些样本数量对模型性能影响几乎可以忽略不计,这说明,纯粹的文本形式的模仿并不足以解决
问题。
上的性能:对于多模态示例来说,上下文学习仅仅能够提高较大模型的能力。然而,对于一些训练过多模态交互数据的模型来说,甚至会随着样本数量增加而出现性能下降。因此,研究者们认为,未来需要将包含逻辑的更高质量的图像和文本交错示例用于上下文学习的训练,并增强多模态大模型的多模态交互能力,才能够在一定程度上改善模型的表现。
上的表现,研究者们进行了微调实验。
数据集上进行微调,LLaVA-V1.5-13B 模型的整体准确率提高了近 20%,并接近了 GPT4V 的水平。
,旨在推动多领域、多步和多模态思维链的研究。研究者们的实验和分析表明,尽管现有的 VLLMs 在某些任务上表现优异,但在更复杂的多模态推理任务上仍有很大改进空间。通过提出
,研究者们希望能够重新评估现有的进展,并通过指出新的挑战和机会,激发未来的研究。研究者们期待
能够成为一个有价值的资源,为多领域、多步和多模态思维链的研究提供开创性的基础。文章来源于互联网:ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?







