NeurIPS 2025重磅:华南理工EVODiff重构扩散模型,质量效率双SOTA解读

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在AIGC时代,扩散概率生成模型(Diffusion Models)无疑是图像与视频生成领域的基石,从Stable Diffusion的惊艳画作到Sora的震撼视频,背后都离不开这一技术的支撑。然而,扩散模型长期面临着推理速度慢、计算成本高以及优化困难等核心痛点。为了获得高质量的生成结果,往往需要数十甚至上百步的迭代去噪,这在追求实时性的应用场景中成为了巨大的瓶颈。
近日,华南理工大学曾德炉教授团队在AI顶级会议NeurIPS 2025上发表了一篇重磅论文——EVODiff。该研究跳出了传统数值求解器的思维定式,首次从信息感知的视角,将去噪过程重构为实时熵减优化问题。这一突破性成果不仅在理论上证明了数据预测优于噪声预测,更在无需参考轨迹的情况下,实现了生成质量和推理效率的双重SOTA(State of the Art)。作为关注前沿科技的AI资讯平台,本文将深入解读这项可能改变未来生成模型设计范式的重要研究。

痛点直击:推理效率与理论解释的“双重困境”

长期以来,扩散模型在实际应用中面临着“鱼与熊掌不可兼得”的矛盾:想要减少推理步数(提速),画质往往会崩坏;想要高质量画质,就必须忍受漫长的生成时间。为了解决这一问题,业界提出了众多基于微分方程(ODE)的加速求解器,如DPM-Solver等。
然而,现有的加速方法存在两个显著缺陷:
  1. 缺乏本质解释:许多方法更像是“数值近似技巧”,虽然能跑通,但缺乏对扩散过程物理本质的深刻理解。例如,为什么某些参数化方法效果更好?我们到底在优化什么?
  1. 依赖参考轨迹:目前许多SOTA算法(如LD3, DPM-Solver-v3)依赖于高成本的“参考轨迹”进行蒸馏或优化。这意味着在生成前,需要先跑一遍高精度的路径作为“标准答案”,这不仅增加了巨大的计算开销,也限制了模型的泛化能力。
EVODiff的出现,正是为了打破这一僵局。它不再修补ODE的数值误差,而是回归到了物理本源——熵(Entropy)

回归本源:熵减视角下的去噪重构

EVODiff的核心洞察极为深刻:扩散模型的去噪过程,本质上是一个不断减少不确定性、恢复信息的过程。
在物理学中,熵代表系统的混乱程度。前向扩散是加噪(熵增),反向去噪则是从混乱中恢复秩序(熵减)。华南理工团队利用这一物理特性,构建了一个全新的理论框架。
更令人振奋的是,该团队在数学上严格证明了一个长期存在的经验性结论:在推理生成过程中,数据预测(Data Prediction)优于噪声预测(Noise Prediction)。
这一发现与MIT何恺明团队最新的JiT架构核心观点不谋而合。何恺明团队指出,自然数据位于低维流形上,而噪声弥漫于高维空间,因此直接预测干净数据比预测噪声更容易。EVODiff则从信息论角度,通过数学推导证明了“数据预测参数化”能更直接地最小化重建误差,并有效降低条件熵。这为未来大模型的设计提供了坚实的理论支撑。

核心突破:免参考的自适应方差优化

EVODiff不仅仅停留在理论层面,它提出了一套名为“熵感知方差优化”(Entropy-aware Variance Optimization)的实战框架。其核心优势可以概括为“三板斧”:
  1. Reference-free(免参考):与依赖预计算轨迹的方法不同,EVODiff完全基于在线计算。它利用当前迭代步骤的状态差异,动态调整方差。这意味着它没有额外的训练成本,做到了真正的“即插即用”。
  1. 闭式解(Closed-form Solution):团队推导出了方差优化目标的闭式解,这意味着获得最优参数几乎不消耗额外的计算资源。实验显示,其推理速度甚至略快于DPM-Solver++。
  1. 普适性(Universality):无论是像素空间的传统模型,还是目前主流的隐空间扩散模型(如Stable Diffusion),EVODiff都能无缝适配。
通过这种机制,EVODiff确保了每一步推理都走在最高效的收敛路径上,实现了从“盲目求解”到“智能导航”的跨越。

性能实测:质量与效率的全面碾压

在NeurIPS 2025的评审中,EVODiff展现出的数据令人印象深刻,全面超越了依赖参考轨迹的竞品方法。
  • CIFAR-10上的降维打击:在极低步数(NFE=10)下,EVODiff的FID指标达到2.78,相比基准DPM-Solver++(FID 5.10),生成错误率降低了惊人的45.5%
  • 高分辨率生成的稳健性:在ImageNet-256任务中,达到同样的SOTA画质,EVODiff仅需15步,比传统方法快了25%。
  • 工业级模型的完美适配:在Latent Diffusion Model(如Stable Diffusion底层架构)测试中,EVODiff在LSUN-Bedrooms数据集上,5步推理下的FID分数提升了43.4%。
在视觉效果上,EVODiff更是解决了低步数推理常见的“伪影”噩梦。例如在生成“宇航员骑马”的图像时,传统方法容易生成出“五条腿”的马或扭曲的肢体,而EVODiff生成的图像结构严谨、光影自然,展现了极高的语义对齐度。

结论与展望

华南理工大学团队提出的EVODiff,标志着扩散模型推理研究进入了一个由理论驱动的新阶段。它证明了只要从熵感知和信息流优化的角度去理解去噪过程,就能设计出既高效又高质量的生成范式,而无需依赖昂贵的参考轨迹或复杂的数值技巧。
随着AGI技术的不断发展,类似EVODiff这样回归数学本源、解决核心计算瓶颈的研究,将为未来的实时生成应用(如实时视频生成、端侧大模型推理)铺平道路。想要了解更多关于人工智能、LLM及前沿技术的深度报道,请持续关注AINEWS
Loading...

没有找到文章