何恺明新模型ELF：颠覆性连续扩散，刷新语言生成新高度

type

status

date

slug

summary

ELF：何恺明团队的语言模型新篇章

长期以来，语言模型的研究主要聚焦于离散的文本序列，GPT等模型通过预测序列中的下一个离散单元（token）来生成文本。这种自回归方法虽然在许多任务上取得了巨大成功，但其固有的串行生成特性导致了效率瓶颈，并且在某些生成质量和多样性方面仍有提升空间。

何恺明团队此次带来的ELF模型，则是一次大胆的范式迁移。它借鉴了在图像生成领域大放异彩的扩散模型（Diffusion Model）思想，并将其巧妙地应用于文本生成。更重要的是，ELF在实现路径上进行了深刻创新，将整个生成过程始终保持在连续的嵌入（embedding）空间中，直到模型的最后一步才进行离散化，将连续表示映射回离散的token。这一“连续到底”的设计，是ELF区别于以往所有扩散语言模型（DLM）的关键所在。

颠覆传统：连续扩散的优势何在？

传统的扩散语言模型（DLM）主要分为两大派别：

离散派（Discrete DLM）：如MDLM、Duo等，直接在离散的token空间进行扩散和去噪。语言的离散本质使得这种方法在概念上更为直观，但处理离散变量的复杂性也带来了挑战。

连续派（Continuous DLM）：如Diffusion-LM、CDCD、DiffuSeq等，将离散token映射到连续的embedding空间进行去噪。然而，以往的连续方法往往在生成过程中仍需频繁与token空间交互（如计算token-level交叉熵），或者需要额外的decoder模块来将连续表示解码回token，未能完全发挥连续空间的优势。

ELF模型则精准地抓住了这一痛点，它认为问题可能不在于“语言必须离散”，而在于“连续路线未能真正连续到底”。ELF的核心贡献在于：

全流程连续去噪：ELF将所有去噪（denoising）过程完全保留在连续的embedding空间中。模型在训练时，将离散token编码为连续embedding，然后加入噪声，学习如何将带噪embedding还原成干净embedding（通过MSE损失）。推理时，模型从纯粹的高斯噪声出发，在连续空间中逐步去噪，直至生成高质量的连续embedding。

一次性离散化：在生成过程的最后一个时间步（t=1），ELF才将最终的连续embedding映射回离散token。这一步被设计为一个“continuous-to-discrete decoding”过程，并且复用了主体的去噪网络，避免了额外训练一个独立的decoder，大大简化了模型结构和训练复杂度。

解决核心挑战：ELF巧妙地解决了将离散token转化为连续表示、在连续空间中高效去噪，以及最终将连续embedding无损地映射回离散token等一系列技术难题。

ELF的惊人表现：效率与质量的双重飞跃

ELF的创新设计带来了显著的性能提升，尤其是在生成困惑度（Generative Perplexity）这一衡量生成文本自然度和质量的关键指标上。在OpenWebText数据集上，ELF仅用 105M参数、45B训练token和 32步采样，就将生成困惑度压低至 24。

这一成绩具有划时代的意义：

超越主流扩散模型：与此前主流的离散扩散语言模型相比，ELF在训练token数量和采样步数均大幅减少的情况下，取得了更低的生成困惑度。这意味着ELF在生成质量上正面击败了许多参数量更大、训练数据更多、采样更慢的竞品。

效率的飞跃：相比动辄需要1024步采样才能接近同等水平的扩散模型，ELF的32步采样效率提升了一个数量级。同时，大幅减少的训练数据量也意味着更低的训练成本和更快的迭代速度。

条件生成能力：ELF在机器翻译（WMT14）和文本摘要（XSum）等条件生成任务上也表现出色，稳定超越了现有扩散语言模型，甚至对一些自回归基线模型形成了压制。

ELF模型还引入了图像生成领域成熟的Classifier-Free Guidance (CFG)技术，通过self-conditioning和training-time CFG的结合，进一步提升了生成质量和可控性，而无需额外的推理开销。

展望：连续扩散的未来之路

ELF的成功不仅证明了连续扩散方法在语言生成领域的巨大潜力，更指明了未来研究的方向。它打破了“连续表示”与“离散输出”之间必须反复对齐的固有思维，将生成过程中的核心去噪任务完全交给高效且稳定的连续空间处理。

ELF的问世，标志着语言模型领域在架构和范式上的一次重要创新。它以更少的资源实现了更高的质量和效率，为构建更强大、更具成本效益的下一代语言模型提供了宝贵的经验和思路。未来，我们可以期待基于ELF所开辟的连续扩散路线，涌现出更多优秀的研究成果，进一步推动人工智能在文本生成及更广泛领域的应用。

ELF的作者团队也星光熠熠，包括MIT的博士生胡珂雅、Linlu Qiu，本科生Hanhong Zhao、陆伊炀，以及博士后黎天鸿等，他们与何恺明教授的紧密合作，共同将这一前沿研究推向了现实，为AI发展注入了新的活力。