ControlNet作者张吕敏新作:让RTX 4070也能生成20秒长视频
type
status
date
slug
summary
tags
category
icon
password
网址

引言:长视频生成的“算力墙”
在当前的AI视频生成领域,高质量与长时长似乎是一对不可调和的矛盾。大部分顶尖模型如 Sora 或国产的视频大模型,其生成上限通常被限制在15秒左右。一旦追求更高的清晰度和更长的时长,模型内部的“潜在 token”数量会呈指数级爆炸。对于想要实现复杂创意的创作者来说,不得不依赖分段生成和首尾帧衔接,这不仅操作繁琐,更难以保证画面的一致性。
近日,ControlNet 的创作者、斯坦福大学博士张吕敏团队发布了最新研究成果,提出了一种专为长视频设计的“记忆压缩系统”。这项技术能让长达20秒的视频仅占用极短的上下文空间,甚至在消费级显卡 RTX 4070 上也能流畅运行。这一突破为AI资讯领域带来了新的震撼,预示着长视频创作门槛的进一步降低。想要了解更多前沿AI新闻,欢迎访问 AINEWS 门户。
核心痛点:上下文爆炸与细节丢失
限制视频生成时长的瓶颈究竟在哪里?答案在于“上下文记忆”。
一段 480p、24 帧/秒的 60 秒视频,在模型内部会被拆解为超过 50 万个潜在 token。为了保持剧情连贯,模型必须实时保存这些记忆。然而,极长的上下文意味着算力成本的激增,普通显卡根本无法支撑。
目前主流的折中方案要么是“滑动窗口法”(切掉历史记忆,导致视频前后不一致),要么是“激进压缩法”(牺牲清晰度)。张吕敏团队发现,传统的压缩方法往往最先丢失决定真实感的高频细节。为了解决这一难题,他们开发了一种全新的预训练帧保留(Frame Preservation)技术。
创新架构:双路径设计与高效压缩
研究团队提出了一种轻量级的双路径神经网络架构,旨在将长视频压缩为极短的上下文表示。其核心创新点在于:
- 双路径处理流:模型同时处理低分辨率视频流和高分辨率残差信息流。
- Diffusion Transformer 注入:高分辨率特征直接注入到扩散模型的内部通道中,绕过了传统 VAE(变分自编码器)带来的信息瓶颈。
- 极高压缩比:基线模型可以将 20 秒的视频内容压缩为仅约 5k 长度的上下文表示。
这意味着,原本需要海量显存处理的视频序列,现在被精简到了极小的规模,但依然保留了关键的视觉特征。这对于人工智能视频生成领域来说,是一次显著的技术跨越。
预训练目标:显式优化帧检索质量
该研究的另一个亮点是其独特的预训练目标。团队认为,衡量压缩模型好坏的标准,在于其从压缩记忆中检索任意时间点高质量帧的能力。
在训练过程中,模型会随机选择视频中的某些帧进行掩蔽,并强迫模型仅依赖压缩后的表示来重建这些被遮盖的帧。这种随机化机制防止了模型“投机取巧”(只记开头或结尾),从而迫使它学习如何在整个时间序列范围内持续保留细节信息。这种对大模型记忆机制的深度优化,显著提升了视频在长时间跨度下的一致性。
实验结果:消费级显卡的胜利
在实际测试中,该模型表现出了惊人的效率。研究人员在 8 张 H100 GPU 集群上进行预训练,并使用单张 A100 或 H100 进行微调。令人兴奋的是,推理过程可以在 RTX 4070 (12GB) 这种家用显卡上完成,成功处理 20 多秒的历史上下文。
在定性评估中,该模型能够根据复杂的故事板提示词,在角色、场景、物体和情节线上保持高度一致。在 VBench 等定量指标测试中,该方法在对象一致性方面表现出了极强的竞争优势。
总结与展望
张吕敏团队的这项研究,为自回归视频生成模型开辟了新的道路。通过高效的记忆压缩和显式的细节保留,我们离“一键生成长电影”的梦想又近了一步。这不仅是技术上的胜利,更是对AI创作生态的一次重塑。
对于关注 AGI 和 LLM 发展的读者来说,这种底层架构的优化往往比单纯增加参数量更具启发性。随着这类技术的普及,未来的提示词工程将能释放出更强大的视频创作潜能。
获取更多关于大模型、AI日报及人工智能的前沿深度解读,请持续关注 aigc.bar。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)