文章来源于互联网:李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
希望 2025 年 AI 领域能带来推理之外的突破。
-
论文地址:https://arxiv.org/pdf/2412.14171v1 -
论文主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/ -
论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
-
发现 1:空间推理是影响 MLLM 在 VSI-Bench 上的主要瓶颈。 -
发现 2:语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。 -
发现 3:在记忆空间时,MLLM 会根据给定的视频在模型中形成一系列局部世界模型,而不是统一的全局模型。
文章来源于互联网:李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了