10秒视频Token超5万?LINVIDEO线性化框架实现20倍加速
type
status
date
slug
summary
tags
category
icon
password
网址

引言:视频生成时代的算力瓶颈
随着Sora、Wan 2.1等视频生成大模型的爆发,视频创作进入了“长时长、高分辨率”的规模化时代。然而,随之而来的是恐怖的计算成本。一段仅10秒的视频,其Token数量往往超过5万个。在传统的Transformer架构中,自注意力机制(Self-Attention)的计算复杂度为O(n²),这意味着随着视频长度增加,计算量呈平方级爆炸。
为了解决这一痛点,来自香港科技大学、北航、南洋理工等机构的研究团队提出了LINVIDEO。这是一种全新的后训练线性化框架,能够在无需重新预训练、无需额外数据的情况下,将视频扩散模型的推理速度提升1.71倍,结合蒸馏技术后甚至可实现20.9倍的惊人加速。这一突破性成果已被CVPR 2026接收,为AI资讯领域带来了关于大模型效率优化的新范式。
为什么视频模型“一换线性就崩”?
在LLM(大语言模型)领域,将O(n²)的注意力机制替换为O(n)的线性注意力已有先例,但在视频扩散模型上却举步维艰。研究团队发现,直接替换会导致视频质量断崖式下跌,主要原因有两点:
- 层敏感性差异:视频模型中不同层对生成质量的贡献极不均衡。某些关键层一旦线性化,会导致严重的性能退化;而另一些层则相对“皮实”。传统的手工替换规则往往无法找到最优平衡点。
- 时序一致性挑战:简单的输出对齐(如使用MSE损失函数)虽然能减小误差,但会引入严重的画面抖动和闪烁,破坏视频的连贯性。
此外,传统的分布匹配(Distribution Matching)方法通常需要训练昂贵的辅助模型来估计分值函数(Score Function),这对于动辄百亿参数的视频大模型来说,训练成本难以承受。
LINVIDEO的核心创新:Selective Transfer
为了解决“替哪几层”的难题,LINVIDEO摒弃了经验主义的手工挑选,提出了一种名为Selective Transfer(选择性迁移)的策略。
该方法将层选择视为一个可学习的决策问题。在后训练过程中,模型会自动、渐进地判断哪些层适合线性化,哪些层必须保留原始结构。这种“软性”的迁移过程避免了瞬间替换带来的分布突变,确保模型在大幅降低计算复杂度的同时,依然能维持极高的生成保真度。这一技术对于追求极致性能的人工智能开发者来说,具有极高的参考价值。
ADM:高效实现视频分布对齐
在解决“怎么训回来”的问题上,LINVIDEO引入了Anytime Distribution Matching (ADM)。
传统的对齐目标往往只关注特定时刻或最终分布,而ADM则沿着采样轨迹,在任意时间步(Timestep)上对齐样本分布。这种方法的优势在于:
* 无需辅助模型:相比传统方法,ADM极大地降低了显存占用和训练耗时。
* 时序稳定性强:通过全轨迹的分布拉回,有效解决了视频线性化后常见的闪烁问题。
* 高质量恢复:能够将线性化后的模型行为精准拉回到原模型水平,确保输出视频的物理规律和常识一致性。
实验结果:14B大模型推理成本大降
在针对Wan 1.3B和Wan 14B等主流LLM视频模型的评测中,LINVIDEO表现卓越。在单卡H100环境下的延迟测试显示:
- 端到端加速:在保持视频质量几乎无损的前提下,LINVIDEO实现了1.43倍至1.71倍的端到端推理加速。
- 极限性能:当结合4步蒸馏技术后,端到端延迟降低了15.9倍至20.9倍,让原本“跑不动”的大模型在普通商用算力上也能流畅运行。
- 多维度领先:根据VBench和VBench-2.0的综合评估,LINVIDEO在运动一致性、物理规律模拟等8个维度上均优于现有的稀疏注意力和动态注意力方案。
结论:开启O(n)推理的新篇章
LINVIDEO的成功证明了:视频扩散模型的线性化难点不在于结构本身,而在于如何科学地进行迁移与对齐。通过Selective Transfer和ADM两大核心技术,该框架为大模型的落地应用扫平了算力障碍。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)