港科大One4D：统一4D生成与重建的革命性框架

type

status

date

slug

summary

视频生成模型的维度困境与One4D的破局

目前的视频扩散模型（Video Diffusion Models）大多专注于生成连贯的RGB帧，却忽略了场景背后的几何结构。这导致生成的视频虽然视觉效果华丽，但在物理一致性和空间深度上往往经不起推敲。这对于需要精确物理交互的下游任务（如机器人导航）构成了巨大障碍。

One4D的核心突破在于，它构造了一个能够同步输出多模态信息的视频扩散模型。它不再仅仅输出RGB视频，而是同步生成对齐的Pointmap（XYZ）几何视频。这意味着，每一个像素不仅包含颜色信息，还包含了其在三维空间中的坐标。这种设计让One4D成为了连接2D视频生成与3D物理世界的桥梁，为下一代AI世界模型奠定了基础。

核心技术一：DLC（解耦LoRA控制）

在多模态联合建模中，一个常见的技术难题是“跨模态干扰”。如果简单地将RGB模态和几何模态在通道维度拼接，或者共享全部参数，往往会导致模型在训练过程中顾此失彼：要么几何精度不高，要么RGB画质下降。

为了解决这个问题，One4D提出了Decoupled LoRA Control（DLC）机制。这一设计的精妙之处在于：

独立分支与共享底座：模型为RGB和Pointmap分别挂载了专属的LoRA（Low-Rank Adaptation）模块，并形成两条解耦的计算分支。基础模型的参数保持冻结，确保了底座视频模型强大的视觉先验不被破坏。

渐进式对齐：通过少量初始化为零的控制连接（control links），连接两个模态的对应层。这使得两个模态在训练初期相对独立，随后逐步建立联系，最终实现像素级的精确对齐。

DLC的设计体现了大模型微调中的高超技巧：既要保留预训练模型的通用能力，又要让新模态（几何信息）得到充分学习，互不干扰却又紧密协作。

核心技术二：UMC（统一掩码条件）

如何用一套模型参数，同时处理生成任务和重建任务？One4D给出的答案是Unified Masked Conditioning（UMC）。

One4D利用了类似于Wan Video的多任务框架思想，将不同的输入条件（单张图片、稀疏视频帧、完整视频）统一打包处理。 * 单张图输入：对应纯4D生成任务。 * 稀疏帧输入：对应混合生成与重建任务。 * 全视频输入：对应纯4D重建任务。

通过一个mask张量来指定哪些帧是已知的，哪些需要生成，One4D实现了任务形态的平滑切换。在实现上，RGB分支的条件通过VAE编码进入潜空间，而几何分支则通过DLC从RGB分支获取控制信号。这种设计极大地提升了模型的通用性和灵活性，展示了LLM时代模型架构设计的统一化趋势。

数据策略：合成与真实的完美融合

训练一个高质量的4D模型，数据的质量至关重要。One4D采取了“合成数据 + 真实数据”的混合策略，这在AI训练中是一个非常经典的范式。

合成数据：利用游戏引擎渲染，能够提供绝对准确的几何真值（Ground Truth），帮助模型学习稳定的时序几何一致性。

真实数据：来自公开的视频数据集，覆盖了复杂的光照、材质和运动模式。为了弥补真实视频缺乏几何标注的缺陷，团队使用Geo4D方法生成伪标签。

这种策略让One4D既具备了合成数据的几何精度，又拥有了真实数据的视觉多样性。在仅使用34K条视频和8张GPU训练的情况下，就取得了SOTA（State of the Art）的效果，体现了AI变现与落地过程中对算力与数据效率的极致追求。

实验表现与未来展望

在多项对比实验中，One4D展现了强大的实力。在单图到4D生成任务中，其在动态性（Dynamic）和深度质量上显著优于4DNeX等竞品。在完整视频重建任务上，其在Sintel和Bonn数据集上的表现甚至超过了专门的重建模型如MonST3R。

One4D的出现，标志着视频生成技术正从单纯的“视觉欺骗”走向“物理模拟”。它不仅是一个生成模型，更是一个理解世界的工具。随着人工智能技术的不断演进，类似One4D这样的框架将在具身智能、元宇宙构建以及电影特效制作中发挥越来越重要的作用。

想要了解更多关于ChatGPT、Claude以及前沿AI日报内容，欢迎访问专业的AI门户站 https://aigc.bar，获取第一手AI资讯。One4D只是开始，一个真正统一的4D数字世界正在向我们走来。