何恺明新模型ELF:颠覆性连续扩散,刷新语言生成新高度

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能领域,每一次技术的突破都可能重塑我们对智能的认知。近日,由华人AI领军人物何恺明及其团队推出的全新语言模型ELF(Embedded Language Flows)横空出世,再次点燃了AI研究者的热情。与当前主流的GPT系列模型所遵循的“预测下一个词元”(next token prediction)自回归范式截然不同,ELF开辟了一条全新的、基于连续扩散的语言生成技术路线,展现出惊人的潜力和效率。

ELF:何恺明团队的语言模型新篇章

长期以来,语言模型的研究主要聚焦于离散的文本序列,GPT等模型通过预测序列中的下一个离散单元(token)来生成文本。这种自回归方法虽然在许多任务上取得了巨大成功,但其固有的串行生成特性导致了效率瓶颈,并且在某些生成质量和多样性方面仍有提升空间。
何恺明团队此次带来的ELF模型,则是一次大胆的范式迁移。它借鉴了在图像生成领域大放异彩的扩散模型(Diffusion Model)思想,并将其巧妙地应用于文本生成。更重要的是,ELF在实现路径上进行了深刻创新,将整个生成过程始终保持在连续的嵌入(embedding)空间中,直到模型的最后一步才进行离散化,将连续表示映射回离散的token。这一“连续到底”的设计,是ELF区别于以往所有扩散语言模型(DLM)的关键所在。

颠覆传统:连续扩散的优势何在?

传统的扩散语言模型(DLM)主要分为两大派别:
  • 离散派(Discrete DLM):如MDLM、Duo等,直接在离散的token空间进行扩散和去噪。语言的离散本质使得这种方法在概念上更为直观,但处理离散变量的复杂性也带来了挑战。
  • 连续派(Continuous DLM):如Diffusion-LM、CDCD、DiffuSeq等,将离散token映射到连续的embedding空间进行去噪。然而,以往的连续方法往往在生成过程中仍需频繁与token空间交互(如计算token-level交叉熵),或者需要额外的decoder模块来将连续表示解码回token,未能完全发挥连续空间的优势。
ELF模型则精准地抓住了这一痛点,它认为问题可能不在于“语言必须离散”,而在于“连续路线未能真正连续到底”。ELF的核心贡献在于:
  1. 全流程连续去噪:ELF将所有去噪(denoising)过程完全保留在连续的embedding空间中。模型在训练时,将离散token编码为连续embedding,然后加入噪声,学习如何将带噪embedding还原成干净embedding(通过MSE损失)。推理时,模型从纯粹的高斯噪声出发,在连续空间中逐步去噪,直至生成高质量的连续embedding。
  1. 一次性离散化:在生成过程的最后一个时间步(t=1),ELF才将最终的连续embedding映射回离散token。这一步被设计为一个“continuous-to-discrete decoding”过程,并且复用了主体的去噪网络,避免了额外训练一个独立的decoder,大大简化了模型结构和训练复杂度。
  1. 解决核心挑战:ELF巧妙地解决了将离散token转化为连续表示、在连续空间中高效去噪,以及最终将连续embedding无损地映射回离散token等一系列技术难题。

ELF的惊人表现:效率与质量的双重飞跃

ELF的创新设计带来了显著的性能提升,尤其是在生成困惑度(Generative Perplexity)这一衡量生成文本自然度和质量的关键指标上。在OpenWebText数据集上,ELF仅用 105M参数45B训练token32步采样,就将生成困惑度压低至 24
这一成绩具有划时代的意义:
  • 超越主流扩散模型:与此前主流的离散扩散语言模型相比,ELF在训练token数量和采样步数均大幅减少的情况下,取得了更低的生成困惑度。这意味着ELF在生成质量上正面击败了许多参数量更大、训练数据更多、采样更慢的竞品。
  • 效率的飞跃:相比动辄需要1024步采样才能接近同等水平的扩散模型,ELF的32步采样效率提升了一个数量级。同时,大幅减少的训练数据量也意味着更低的训练成本和更快的迭代速度。
  • 条件生成能力:ELF在机器翻译(WMT14)和文本摘要(XSum)等条件生成任务上也表现出色,稳定超越了现有扩散语言模型,甚至对一些自回归基线模型形成了压制。
ELF模型还引入了图像生成领域成熟的Classifier-Free Guidance (CFG)技术,通过self-conditioning和training-time CFG的结合,进一步提升了生成质量和可控性,而无需额外的推理开销。

展望:连续扩散的未来之路

ELF的成功不仅证明了连续扩散方法在语言生成领域的巨大潜力,更指明了未来研究的方向。它打破了“连续表示”与“离散输出”之间必须反复对齐的固有思维,将生成过程中的核心去噪任务完全交给高效且稳定的连续空间处理。
ELF的问世,标志着语言模型领域在架构和范式上的一次重要创新。它以更少的资源实现了更高的质量和效率,为构建更强大、更具成本效益的下一代语言模型提供了宝贵的经验和思路。未来,我们可以期待基于ELF所开辟的连续扩散路线,涌现出更多优秀的研究成果,进一步推动人工智能在文本生成及更广泛领域的应用。
ELF的作者团队也星光熠熠,包括MIT的博士生胡珂雅、Linlu Qiu,本科生Hanhong Zhao、陆伊炀,以及博士后黎天鸿等,他们与何恺明教授的紧密合作,共同将这一前沿研究推向了现实,为AI发展注入了新的活力。
Loading...

没有找到文章