ICLR 2026 视觉范式革新：FlowRVS 如何用生成式流匹配重构视频理解？

type

status

date

slug

summary

引言：跳出“表征”的迷思

长期以来，计算机视觉领域一直被“表征（Representation）”的概念所统治。研究者们致力于设计精巧的编码器（Encoder），试图将瞬息万变的动态视频压缩成有限的特征向量。然而，视频作为高维世界的投影，其丰富的时空细节和复杂的动态演变，使得传统的“定格”式表征往往在面对细粒度任务时显得力不从心。

在刚刚公布的 ICLR 2026 中，来自加州大学圣迭戈分校（UCSD）、香港科技大学（HKUST）以及国家电网思极 AI 实验室（SGIT AI Lab）的研究团队提出了 FlowRVS。这项研究的核心在于：不再执着于“压缩”，而是利用生成式流匹配（Flow Matching）去“重演”视觉感知的过程。这不仅是性能上的突破，更预示着视觉感知范式正在从判别式向生成式发生代际转换。想要了解更多前沿 AI资讯，欢迎访问 AI门户。

超越压缩：生成式模型对物理规律的“降维打击”

物理学家理查德·费曼曾言：“What I cannot create, I cannot understand.”（我不能创造的，我就不能理解）。这一理念正是 FlowRVS 的底层逻辑。

传统的判别式模型在处理视频分割时，往往试图在模糊的像素间强行划定界限，这在面对遮挡、运动模糊或光影剧变时极易失效。而像 Sora、Wan 2.1 等生成式大模型，在预训练中通过学习“如何生成视频”，已经掌握了物体恒常性、物理运动规律等“世界模拟器”级别的先验知识。

FlowRVS 的核心洞察在于：与其训练模型死记硬背分类边界，不如释放 DiT（Diffusion Transformer）全参数的生成能力，引导视频特征自然地“生长”出目标的分割掩码（Mask）。这种基于 人工智能 对物理规律深刻理解的范式，实现了对传统视觉任务的降维打击。

探索最优路径：从噪声出发还是从视频出发？

在确立了生成式建模的大方向后，研究团队通过一系列消融实验，寻找到了通往最优解的路径。

一步映射（One-step Prediction）：试图直接将高维视频特征映射为二值 Mask。实验证明，这种巨大的信息跳跃会导致严重的特征坍缩，训练极不稳定。

从噪声出发（Noise-to-Mask）：模仿主流扩散模型，从高斯噪声开始生成 Mask。然而，这种方式舍弃了视频本身的纹理和空间先验，导致性能大幅下降。

Video-to-Mask Flow：这是 FlowRVS 最终确立的范式。它以视频特征为起点，学习一个确定性的 ODE（常微分方程）轨迹，让特征平滑地“流淌”至目标 Mask。

这种“残差思维”的回归，证明了保留视频本身作为基底的巨大价值，让 大模型 的潜力得到了彻底释放。

BBS 策略：在收敛的漏斗中抢占先机

FlowRVS 在技术实现上的另一大创新是 边界偏置采样（BBS）。

在标准的流匹配训练中，时间步 $t$ 通常是均匀采样的。但研究团队发现，指代视频分割（RVOS）是一个典型的“收敛过程（Convergent Process）”。与发散的视频生成不同，RVOS 的目标是唯一确定的。

在 $t=0$ 的起点，文本指令必须精准地从纷繁的视频背景中“锁定”目标。如果在这一瞬间方向偏离，后续的演化将毫无意义。通过 BBS 策略，FlowRVS 在训练中增加了起点附近的采样权重。实验数据显示，这一改动直接带来了 10 个点的性能暴涨，再次印证了在判别任务中，“出发的方向”远比“路途的修饰”更重要。

物理必然：为什么 1-step 推理反而更优？

令人惊讶的是，尽管 FlowRVS 基于复杂的 ODE 求解器训练，但在推理时，仅需“一步（1-step）”就能达到最优效果。

这并非偶然，而是判别式任务的物理必然。在强约束下，模型学到的流场实际上是一个直指唯一终点的“坍缩向量”。当 BBS 确保了起点的精准后，从视频到 Mask 的轨迹变得极其笔直。这种特性使得 FlowRVS 在保持生成式模型强大泛化能力的同时，拥有了极速推理的优势，这对于实时 AI新闻 处理或长视频分析至关重要。

结语：迈向视觉感知的跨模态大一统

FlowRVS 在 MeViS 等基准测试中刷新了 SOTA 记录，并在 Zero-shot 场景下展现了惊人的外推能力。即使面对从未见过的动作或超长视频序列，它依然能凭借对物理运动本质的理解，保持分割的稳定性。

从更宏观的角度看，FlowRVS 证明了 Flow Matching 理论的普适性。无论是文本转视频，还是视频转掩码，数学本质上都是在构建两个概率分布之间的最优传输路径。未来，我们或许不再需要为不同的视觉任务设计碎片化的架构，所有的感知与生成，都将统一在简洁优美的流匹配方程之中。

如果您对 AGI、LLM 或最新的 提示词 技术感兴趣，请持续关注 AIGC.BAR，获取最前沿的 AI日报 与深度技术解读。