告别LayerNorm!清华刘壮团队Derf助力Transformer无需归一化性能飞跃

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在当前的人工智能领域,Transformer 架构无疑是支撑大模型(LLM)和各类 AGI 应用的基石。然而,长期以来,LayerNorm(层归一化)一直被视为 Transformer 中不可或缺的组件,尽管它在推理阶段会带来显著的计算和访存成本。如何构建一个既高效又高性能的“无归一化(Normalization-Free)”Transformer,一直是 AI 研究人员追求的圣杯。
近日,清华姚班校友刘壮带领的团队再次取得突破,提出了一种极为简单的激活层——Derf(Dynamic erf)。这项研究不仅解决了无归一化模型训练不稳定的难题,更在多个关键任务上实现了对传统架构的性能超越。作为关注前沿科技的 AI资讯 平台,AINEWS 将带您深入解读这一可能改变 Transformer 设计范式的重磅成果。

挑战归一化的必要性:打破 LayerNorm 的枷锁

在传统的 Transformer 架构中,LayerNorm 或 RMSNorm 几乎是“标配”。它们的作用是稳定训练过程,防止梯度消失或爆炸。然而,这种归一化操作并非没有代价。特别是在大模型推理阶段,归一化层涉及的统计量计算会增加显存访问的负担,限制了模型的极致效率。
过去,虽然有研究者尝试移除归一化层,但往往面临两个主要障碍: 1. 训练极不稳定:模型难以收敛,容易出现梯度问题。 2. 性能折损:即使勉强训练成功,最终效果也明显不如带有 LayerNorm 的标准模型。
刘壮团队此次的研究正是为了攻克这两个难点,旨在证明归一化层并非构建高性能 Transformer 的唯一选择。

Derf:简单至极的逐点函数设计

研究团队提出的解决方案名为 Derf(Dynamic erf),这是一种结构极其简单的逐点(point-wise)层。与之前的 Dynamic Tanh (DyT) 类似,Derf 不需要计算激活分布的统计信息,这使得它在计算上更加轻量。
Derf 的核心基于高斯误差函数(Gauss error function),通过引入少量的可学习参数(位移参数和缩放参数),它可以直接替换模型原本使用 LayerNorm 或 RMSNorm 的位置。其设计遵循了四个关键原则,这些原则被证明对无归一化模型的稳定性至关重要: * 零中心性(Zero-centeredness) * 有界性(Boundedness) * 中心敏感性(Center sensitivity) * 单调性(Monotonicity)
实验表明,只要满足这四个条件,逐点函数就能有效替代归一化层。而 Derf 正是在众多候选函数中脱颖而出的最优解。

全面超越:从视觉到语言模型的性能验证

为了验证 Derf 的有效性,研究团队在多种架构和任务上进行了广泛的测试。结果令人振奋:Derf 不仅实现了“可替代”,更实现了“超越”。
视觉 Transformer (ViT) 领域,基于 ImageNet-1K 的训练结果显示,无论是 Base 还是 Large 规模的模型,使用 Derf 的版本在 Top-1 准确率上均高于使用 LayerNorm 和 DyT 的版本。
扩散模型 (DiT) 方面,Derf 同样表现出色。在图像生成质量的评估指标 FID(越低越好)上,Derf 击败了传统归一化模型,生成的图像质量更高,证明了其在生成式 AI 领域的潜力。
此外,在 基因组序列建模 (DNA)语音识别 (wav2vec 2.0) 任务中,Derf 也展现出了强大的鲁棒性,准确率和验证集损失均优于基准模型。即使是在 GPT-2 语言模型 的预训练中,Derf 的表现也与 LayerNorm 持平,并明显优于之前的 DyT 方案。

并非死记硬背:更强的泛化能力

这项研究最引人深思的一个发现是 Derf 性能提升的来源。通常我们认为,性能提升可能源于模型对训练数据的拟合程度更高。然而,研究团队在分析训练损失(Training Loss)时发现了一个反直觉的现象:
基于归一化(Norm)的模型的训练损失其实是最低的,而 Derf 的训练损失反而较高。但在测试集(Test Set)上,Derf 的表现却更好。
这一事实揭示了 Derf 的真正优势:它并非通过“死记硬背”训练数据来提升分数,而是赋予了模型更强的泛化能力。 这种特性对于构建能够适应未知数据的通用 人工智能 系统至关重要。

总结与展望

刘壮团队的这项研究再次证明,深度学习架构中许多被视为“金科玉律”的组件(如 LayerNorm),实际上都有被优化甚至替代的空间。Derf 的出现,提供了一种即插即用的、无需归一化的替代方案,它简单、高效且性能卓越。
随着 大模型LLM 技术的不断演进,架构层面的精简与优化将是提升推理效率、降低算力成本的关键路径。Derf 无疑为未来的 Transformer 设计指明了一个极具价值的方向。
想要了解更多关于 AI 技术进展、AGI 趋势以及 大模型 的最新动态,请持续关注 AINEWS,我们为您提供最前沿的 AI资讯 和深度解读。
Loading...

没有找到文章