「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

首页 » 「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

内容目录

文章来源于互联网:「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。

几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型 See3D—See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D 生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注，能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成，还无需微调即可执行 3D 编辑、表面重建等任务，展现出在多种 3D 创作应用中的广泛适用性。

^{See3D 支持从文本、单视图和稀疏视图到 3D 的生成，同时还可支持 3D 编辑与高斯渲染。}

相关的模型、代码、Demo 均已开源，更多技术细节请参考 See3D 论文。

论文地址: https://arxiv.org/abs/2412.06699
项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界：输入图片，生成沉浸式可交互 3D 场景，实时探索真实空间结构；

^{实时 3D 交互（备注：为了实现实时交互式渲染，当前对 3D 模型和渲染过程进行了简化，离线渲染真实效果更佳）}

2. 基于稀疏图片的 3D 重建：输入稀疏的 (3-6 张) 图片，模型可生成一个精细化的 3D 场景。

^{基于 6 张视图的 3D 重建}

^{基于 3 张视图的 3D 重建}

3. 开放世界 3D 生成：根据文本提示，生成一副艺术化的图片，基于此图片，模型可生成一个虚拟化的 3D 场景。

^{开放世界 3D 生成样例}

4. 基于单视图的 3D 生成：输入一张真实场景图片，模型可生成一个逼真的 3D 场景。

^{基于单张图片的 3D 生成}

研究动机

3D 数据具有完整的几何结构和相机信息，能够提供丰富的多视角信息，是训练 3D 模型最直接的选择。然而，现有方法通常依赖人工设计（designed artists）、立体匹配（stereo matching）或运动恢复结构（Structure from Motion, SfM）等技术来收集这些数据。尽管经过多年发展，当前 3D 数据的积累规模依然有限，例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂，还可能难以实施，导致其数据规模难以扩展，无法满足大规模应用的需求。

与此不同，人类视觉系统无需依赖特定的 3D 表征，仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧图像难以实现这一点，而视频因其天然包含多视角关联性和相机运动信息，具备揭示 3D 结构的潜力。更重要的是，视频来源广泛且易于获取，具有高度的可扩展性。基于此，See3D 提出 “See Video, Get 3D” 的理念，旨在通过视频中的多视图信息，让模型像人类一样，学习并推理物理世界的三维结构，而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成，See3D 提供了一套系统化的解决方案，具体包括：

1）数据集：团队提出了一个视频数据筛选流程，自动去除源视频中多视角不一致或观察视角不充分的视频，构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像，可通过自动化流程随互联网视频量的增长而不断扩充。

^{WebVi3D 数据集样本展示}

2）模型：标注大规模视频数据的相机信息成本极高，且在缺乏显式 3D 几何或相机标注的情况下，从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题，See3D 引入了一种新的视觉条件 —— 通过向掩码视频数据添加时间依赖噪声，生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型（MVD）训练，避免对相机条件的依赖，实现了 “仅通过视觉获得 3D” 的目标，绕过了昂贵的 3D 标注。

^{See3D 方法展示}