谢赛宁新作RAE:VAE时代落幕,AI生成模型迎来新变革 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能生成内容(AIGC)的浪潮中,以Stable Diffusion为代表的扩散模型无疑是推动图像生成技术发展的核心力量。然而,许多前沿的扩散Transformer(DiT)模型,至今仍依赖于2021年发布的SD-VAE(变分自动编码器)来构建其潜空间。这颗“老心脏”虽然功勋卓著,但其固有的瓶颈也日益成为制约模型性能进一步提升的枷锁。
近日,著名AI学者谢赛宁及其团队发布了一项颠覆性研究,正式宣告“VAE退役,RAE当立”。他们提出的新型表征自编码器RAE(Representation Autoencoders),旨在为扩散模型提供一颗更强大、更高效的“心脏”。这不仅是一次简单的技术迭代,更可能预示着整个AI生成领域范式的转变。想获取更多前沿的AI新闻AI资讯,欢迎访问AI门户网站 AIGC.Bar
本文将深入剖析RAE的核心思想,探讨它如何解决VAE的痛点,并展望其为人工智能大模型技术带来的广阔前景。

VAE的黄昏:为何昔日功臣亟待“退役”?

长期以来,VAE在扩散模型中扮演着至关重要的角色,它负责将高维像素图像压缩到低维潜空间,让扩散过程在更易于处理的维度上进行。然而,随着技术的发展,SD-VAE的几大核心缺陷愈发凸显:
  1. 过时的架构与高昂的计算成本:SD-VAE的骨干网络设计相对陈旧,完成一次编码/解码需要约450 GFLOPs的计算量。相比之下,一个现代化的ViT-B编码器仅需22 GFLOPs。这种巨大的计算开销使得训练和推理过程变得异常沉重和低效。
  1. 信息瓶颈:过度压缩的潜空间:SD-VAE将图像压缩到一个仅有4个通道的潜空间中。虽然“压缩催生智能”在某些场景下成立,但在这里,极端的压缩导致了严重的信息损失。其潜空间的信息承载能力甚至与原始的3通道像素相差无几,并未带来预期的效率增益,反而牺牲了大量宝贵的视觉细节。
  1. 薄弱的表征能力与收敛困境:由于VAE的训练目标主要集中在像素级的重建上,它学到的特征表征在语义层面非常薄弱(线性探测精度仅约8%)。高质量的表征是高效训练和卓越生成效果的基石,而VAE的这一短板直接导致了扩散模型训练收敛速度缓慢,并最终损害了生成图像的质量和多样性。

RAE的黎明:大道至简的设计哲学

针对VAE的种种弊病,谢赛宁团队提出的RAE采用了截然不同的思路,其核心设计堪称“大道至简”:
RAE = 预训练的表征编码器 + 轻量级解码器
具体来说,RAE直接利用了社区已经训练好的、强大的预训练表征编码器(如DINO、SigLIP、MAE等),这些编码器基于ViT等现代化架构,已经学习到了丰富且高质量的语义表征。RAE的任务,仅仅是训练一个与之匹配的、轻量级的解码器,将这些高质量的表征重新映射回像素空间。
这种设计的精妙之处在于: * 无需从零开始:充分利用了现有SOTA模型的强大能力,避免了重复造轮子。 * 架构极简:没有额外的对齐阶段,无需复杂的辅助损失函数,也不需要引入额外的适配层进行二次压缩。整个流程就是获取一个预训练编码器,然后用L1、LPIPS和GAN损失来训练解码器。 * 高质量重建:尽管架构简洁,RAE在重建质量上却能轻松超越臃肿的SD-VAE,同时其潜空间天然富含语义信息,为AI生成提供了更优质的土壤。

拥抱高维:RAE如何驾驭扩散Transformer?

一个自然而然的疑问是:RAE的潜空间维度远高于VAE(例如,ViT-B的潜空间维度为768),扩散模型在高维空间中去噪是否会变得异常困难?谢赛宁坦言,他最初也曾有此顾虑,但实验结果证明,只需进行三个简单的调整,扩散Transformer(DiT)便能出色地适应高维潜空间。
  1. 宽DiT设计:研究发现,要让扩散模型有效工作,其内部Transformer的宽度(d)必须至少等于潜表征的维度(n)。满足 d >= n 这个简单条件,是模型能够正常学习的关键。
  1. 自适应噪声调度:在高分辨率图像生成中,根据分辨率调整噪声调度已是常规操作。同理,通过调整噪声调度策略,可以使扩散模型平滑地适应输入通道维度的增加。
  1. 注入噪声的解码器:为了让解码器能够更好地处理扩散过程中产生的微小误差,研究者在解码器训练阶段注入了微量的噪声。这一技巧极大地提升了解码器对潜空间细微扰动的鲁棒性,使其能“优雅地”完成重建任务。
凭借这些看似微小却至关重要的调整,基于RAE的DiT-XL模型在性能上已超越此前的SOTA方法REPA,并且其收敛速度比基于SD-VAE的REPA快了惊人的16倍

追求极致效率:DiTDH架构的巧妙扩展

尽管“宽DiT设计”解决了高维适应性问题,但无脑地增加DiT模型的宽度很快会变得不切实际。为了进一步提升模型的可扩展性和效率,团队引入了DiTDH(DiT with Decoupled Head)架构。
该架构将模型分为两部分: * 一个标准的DiT作为条件化骨干网络。 * 一个极宽但极浅的扩散头部,它直接接收带噪声的潜变量输入,并预测去噪后的速度向量。
这种解耦设计使得模型在训练计算量和参数规模方面的扩展效率远超标准DiT,无论是在RAE框架内还是与传统的VAE方法相比,都展现出巨大的优势。最终,采用RAE和DiTDH的DiT模型在ImageNet数据集上取得了FID=1.13的顶尖成绩,证明了其强大的生成能力。

结论

从VAE到RAE,我们看到的不仅是一次模型组件的更替,更是一次人工智能设计理念的进化。RAE抛弃了VAE“集编码与表征学习于一身”的沉重包袱,通过巧妙地“站在巨人肩膀上”,将强大的预训练模型能力与轻量化的任务特定模块相结合,实现了性能与效率的双重飞跃。
RAE的成功预示着,未来的AIGC大模型发展将更加注重模块化、效率和对现有成果的复用。随着RAE被更多研究者和开发者采纳,我们有理由相信,一个由更快速、更强大、更智能的生成模型驱动的AI新时代正加速到来。想要持续追踪LLMPrompt工程等最新动态,探索AI变现的可能性,请务必关注 AIGC.Bar,您的专属AI信息门户。
Loading...

没有找到文章