FeRA:基于频域能量动态路由,NUS打破扩散模型微调静态瓶颈
type
status
date
slug
summary
tags
category
icon
password
网址

在大模型时代,生成式AI的发展日新月异。从Stable Diffusion到最新的Flux模型,参数高效微调(PEFT)技术已成为将这些庞大的扩散模型迁移至特定下游任务的标准范式。LoRA(Low-Rank Adaptation)及其变体如DoRA、AdaLoRA等,因其轻量级和高效性被广泛应用。然而,随着对生成质量要求的不断提高,现有的静态微调策略逐渐显露出其局限性。
为了突破这一瓶颈,新加坡国立大学(NUS)LV Lab(颜水成团队)联合电子科技大学、浙江大学等机构,提出了一种全新的微调框架——FeRA (Frequency-Energy Constrained Routing)。这项研究首次从频域能量的第一性原理出发,揭示了扩散去噪过程中的物理规律,并设计了动态路由机制,为大模型微调带来了革命性的提升。如果您关注更多前沿的AI资讯和AI新闻,欢迎访问 AIGC.BAR 获取最新动态。
静态微调与动态生成的错配困境
扩散模型的生成过程,本质上是一个去噪过程(Denoising Process),即从无序的噪声逐步演变为有序图像的物理过程。研究团队通过深入的频谱分析发现,这一过程并非均匀不变,而是具有显著的时序性和阶段性特征:
- 生成初期(高噪声阶段):模型主要关注图像的低频能量恢复,例如确立整体构图、物体轮廓和基本色调。
- 生成后期(低噪声阶段):模型的重心逐渐转移至高频能量的填充,致力于完善纹理、边缘细节和光影效果。
然而,传统的PEFT方法(如LoRA)通常采用“静态”策略。这意味着无论模型处于去噪的哪个阶段——是在画轮廓还是在描细节,适配器(Adapter)的参数都是固定不变的。这种“一刀切”的方式导致了目标错配(Misalignment):负责结构的参数和负责细节的参数被强行耦合在一起。结果往往是模型在有限的参数空间内顾此失彼,生成的图像要么结构崩坏,要么纹理模糊。
FeRA的核心:频域能量指示器 (FEI)
FeRA框架的核心创新在于它赋予了模型“感知”频域能量的能力。为了解决上述痛点,FeRA引入了频域能量指示器 (Frequency-Energy Indicator, FEI)。
不同于以往仅依赖离散的时间步(Timestep)作为条件的方法,FEI充当了FeRA的“眼睛”。它利用高斯差分 (Difference-of-Gaussians, DoG) 算子,直接在潜空间(Latent Space)提取特征的频域能量分布。FEI能够将特征分解为多个频带,并实时计算各频带的归一化能量值,形成一个连续的、具有物理可解释性的能量向量。这使得模型能够精确判断当前生成阶段主要需要处理的是低频结构还是高频细节。
动态路由与一致性正则化:大脑与稳定器
基于FEI提供的精准信号,FeRA设计了一个软频域路由器 (Soft Frequency Router),这构成了系统的“大脑”。该路由器通过一个轻量级网络,动态计算不同LoRA专家模块(Experts)的权重。
- 当低频能量主导时,系统自动激活擅长结构生成的专家分支。
- 当高频能量主导时,系统平滑过渡到擅长纹理细节的专家分支。
这种动态调度机制实现了参数的有效解耦,让“专业的人做专业的事”。此外,为了防止微调过程偏离原本的生成轨迹,团队还引入了频域能量一致性正则化 (FECL)。作为系统的“稳定器”,FECL强制要求LoRA产生的参数更新量在频域上的能量分布必须与模型原本的残差误差保持一致。这确保了微调过程“指哪打哪”,极大地提升了训练的稳定性,是人工智能微调领域的一大进步。
实验验证:从风格迁移到主体定制的全面领先
研究团队在Stable Diffusion 1.5、SDXL以及最新的FLUX.1等多个主流底座上进行了广泛测试,实验结果令人瞩目。
在风格迁移任务中,FeRA在FID(图像质量)、CLIP Score(语义对齐)等指标上均取得了最优或次优的成绩,证明了其在捕捉复杂艺术风格方面的卓越能力。
在主体定制(DreamBooth)任务中,FeRA更是展现了惊人的文本可控性。传统方法容易过拟合主体(Identity),导致无法响应新的背景提示词(Prompt)。而FeRA在CLIP-T(文本对齐度)指标上显著优于DoRA和AdaLoRA。这意味着它不仅能完美复刻“这只特定的狗”,还能准确听懂指挥让它“在游泳”或“在草地上奔跑”,真正实现了主体保持与环境生成的双重可控。
总结与展望
目前的扩散模型微调仍以静态参数叠加为主,在处理复杂的多频段信息时存在天然瓶颈。NUS LV Lab提出的FeRA框架,通过引入频域第一性原理,将微调从“参数层面的分解”推进到了“机制层面的对齐”。这不仅证明了顺应生成过程的物理规律是实现高效微调的关键路径,也为未来AGI和LLM在视频生成、3D生成等更复杂任务中的应用提供了极具价值的新思路。
想要了解更多关于大模型技术进展、Prompt技巧以及AI变现机会,请持续关注 AIGC.BAR,这里是您获取前沿AI资讯的首选AI门户。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)