港科大One4D:统一4D生成与重建的革命性框架
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能快速发展的今天,视频生成模型虽然在“真实感”和“动态性”上取得了令人瞩目的成就,但往往止步于二维的RGB像素空间。对于追求AGI(通用人工智能)的研究者而言,仅仅生成好看的视频是远远不够的。为了实现空间推理、具身智能以及自动驾驶仿真,我们需要模型能够理解并构建完整的4D世界。
近期,香港科技大学(HKUST)团队提出的One4D框架,正是为了解决这一核心痛点而来。作为一个统一的4D生成与重建框架,One4D不仅打破了传统视频生成模型缺乏三维几何显式建模的局限,更通过创新的技术架构,实现了从单张图像到4D生成、稀疏帧补全以及完整视频重建的多任务统一。如果您关注最新的AI资讯和大模型技术进展,请务必关注 https://aigc.bar 获取更多AI新闻。
视频生成模型的维度困境与One4D的破局
目前的视频扩散模型(Video Diffusion Models)大多专注于生成连贯的RGB帧,却忽略了场景背后的几何结构。这导致生成的视频虽然视觉效果华丽,但在物理一致性和空间深度上往往经不起推敲。这对于需要精确物理交互的下游任务(如机器人导航)构成了巨大障碍。
One4D的核心突破在于,它构造了一个能够同步输出多模态信息的视频扩散模型。它不再仅仅输出RGB视频,而是同步生成对齐的Pointmap(XYZ)几何视频。这意味着,每一个像素不仅包含颜色信息,还包含了其在三维空间中的坐标。这种设计让One4D成为了连接2D视频生成与3D物理世界的桥梁,为下一代AI世界模型奠定了基础。
核心技术一:DLC(解耦LoRA控制)
在多模态联合建模中,一个常见的技术难题是“跨模态干扰”。如果简单地将RGB模态和几何模态在通道维度拼接,或者共享全部参数,往往会导致模型在训练过程中顾此失彼:要么几何精度不高,要么RGB画质下降。
为了解决这个问题,One4D提出了Decoupled LoRA Control(DLC)机制。这一设计的精妙之处在于:
- 独立分支与共享底座:模型为RGB和Pointmap分别挂载了专属的LoRA(Low-Rank Adaptation)模块,并形成两条解耦的计算分支。基础模型的参数保持冻结,确保了底座视频模型强大的视觉先验不被破坏。
- 渐进式对齐:通过少量初始化为零的控制连接(control links),连接两个模态的对应层。这使得两个模态在训练初期相对独立,随后逐步建立联系,最终实现像素级的精确对齐。
DLC的设计体现了大模型微调中的高超技巧:既要保留预训练模型的通用能力,又要让新模态(几何信息)得到充分学习,互不干扰却又紧密协作。
核心技术二:UMC(统一掩码条件)
如何用一套模型参数,同时处理生成任务和重建任务?One4D给出的答案是Unified Masked Conditioning(UMC)。
One4D利用了类似于Wan Video的多任务框架思想,将不同的输入条件(单张图片、稀疏视频帧、完整视频)统一打包处理。
* 单张图输入:对应纯4D生成任务。
* 稀疏帧输入:对应混合生成与重建任务。
* 全视频输入:对应纯4D重建任务。
通过一个mask张量来指定哪些帧是已知的,哪些需要生成,One4D实现了任务形态的平滑切换。在实现上,RGB分支的条件通过VAE编码进入潜空间,而几何分支则通过DLC从RGB分支获取控制信号。这种设计极大地提升了模型的通用性和灵活性,展示了LLM时代模型架构设计的统一化趋势。
数据策略:合成与真实的完美融合
训练一个高质量的4D模型,数据的质量至关重要。One4D采取了“合成数据 + 真实数据”的混合策略,这在AI训练中是一个非常经典的范式。
- 合成数据:利用游戏引擎渲染,能够提供绝对准确的几何真值(Ground Truth),帮助模型学习稳定的时序几何一致性。
- 真实数据:来自公开的视频数据集,覆盖了复杂的光照、材质和运动模式。为了弥补真实视频缺乏几何标注的缺陷,团队使用Geo4D方法生成伪标签。
这种策略让One4D既具备了合成数据的几何精度,又拥有了真实数据的视觉多样性。在仅使用34K条视频和8张GPU训练的情况下,就取得了SOTA(State of the Art)的效果,体现了AI变现与落地过程中对算力与数据效率的极致追求。
实验表现与未来展望
在多项对比实验中,One4D展现了强大的实力。在单图到4D生成任务中,其在动态性(Dynamic)和深度质量上显著优于4DNeX等竞品。在完整视频重建任务上,其在Sintel和Bonn数据集上的表现甚至超过了专门的重建模型如MonST3R。
One4D的出现,标志着视频生成技术正从单纯的“视觉欺骗”走向“物理模拟”。它不仅是一个生成模型,更是一个理解世界的工具。随着人工智能技术的不断演进,类似One4D这样的框架将在具身智能、元宇宙构建以及电影特效制作中发挥越来越重要的作用。
想要了解更多关于ChatGPT、Claude以及前沿AI日报内容,欢迎访问专业的AI门户站 https://aigc.bar,获取第一手AI资讯。One4D只是开始,一个真正统一的4D数字世界正在向我们走来。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)