1500美元打破大模型垄断?深度解析HRM潜空间推理新架构
type
status
date
slug
summary
tags
category
icon
password
网址
在瞬息万变的AI资讯和AI新闻领域,我们经常听到关于巨型大模型的突破。然而,最近一个训练成本仅约1500美元、参数量约1B的开源小模型——HRM-Text,却将“分层递归推理”(Hierarchical Reasoning Model)推向了学术界与工业界讨论的中心。HuggingFace联合创始人兼CEO Clem Delangue亲自转发推荐,图灵奖得主Yoshua Bengio团队也几乎在同一时间押注了相同的技术路线。
这一现象引发了广泛关注:一个参数量如此之小、成本如此之低的模型,凭什么能与主流的2B到7B模型在多个强推理基准测试中一较高下?这是否意味着人工智能的研发正在告别单纯拼算力和数据量的重工业时代?若想持续跟踪前沿的LLM、chatGPT、claude等技术动态,可访问AI门户 AIGC.bar 获取每日最新的AI日报。本文将为您深度拆解HRM-Text背后的底层逻辑与技术突破。
什么是HRM架构:把草稿纸放回模型的“脑子”里
传统的推理模型(如使用思维链 CoT 的模型)更像是在“边说边想”。它们把推理过程写成一串Token,让模型一步步输出中间过程。这种方式虽然有效,但也带来了明显的弊端:Token越写越长导致推理成本飙升;中间一步出错,后面就会满盘皆输;更重要的是,模型容易学会“看起来像推理”的文本,而非真正掌握“推理的结构”。
HRM(分层推理模型)则走了一条截然不同的道路:潜空间推理(Latent Reasoning)。
HRM的核心思想是:推理为什么一定要写出来?人类在解决复杂问题时,往往会在脑海中反复尝试、修正、排除,最后才说出答案。HRM正是试图把“草稿纸”从嘴上拿下来,放回模型的脑子里。它不要求模型输出冗长的思维链Token,而是让模型在输出最终答案之前,在内部的潜空间状态中进行多轮、分层的递归计算。
H/L双时间尺度:模型内部的“双脑区”协同
标准Transformer架构像一条流水线,输入数据后一层一层往前走,每一层只处理一次,最后输出。要提升能力,通常只能增加层数和参数。
而HRM在模型内部设计了两个以不同节奏工作的模块,相当于两个协同工作的“脑区”:
- 高层模块(H):战略脑。它更新频率较慢,负责把握整体方向、维持长期上下文,决定当前应该往哪里思考。
- 低层模块(L):执行脑。它更新频率较快,负责局部计算、细节修正,一步步将问题往前推。
这两个模块并不是两个独立的Agent在用自然语言对话,而是在同一个神经网络、同一个潜空间中,反复更新同一份内部状态。这种“高层Slow、低层Fast”的双时间尺度递归架构,使得有限的参数能够参与到更深度的有效计算中。这就好比一个人不是多背了几本书,而是学会了在脑子里把问题多转几个弯。
1500美元与40B Token:高效背后的三大技术基石
HRM-Text仅使用约40B unique tokens进行训练(作为对比,Llama 3.2 3B使用了约9T tokens,是其225倍),却在MATH、GSM8K等推理任务上取得了惊人的成绩。这并非依靠单点技巧,而是得益于其在架构、学习目标和训练方法上的系统性重构:
第一,改变了模型“怎么算”。HRM-Text不靠堆叠层数,而是通过多轮内部递归计算加深计算深度。
第二,改变了模型“学什么”。传统的语言模型训练需要预测整段文本的所有Token。而HRM-Text采用了PrefixLM attention mask,在指令部分充分整合上下文,仅对回答部分的损失(Loss)进行计算。这意味着训练信号被高度集中在“如何完成任务”上,而不是平均分散在整段文本的预测中。
第三,解决了递归训练易崩溃的难题。递归架构在训练时极易出现激活值方差累积、梯度消失或爆炸的问题。HRM-Text引入了MagicNorm和warmup deep credit assignment(热身深层信用分配)。它不急于让模型一开始就为所有深层递归步骤负责,而是先让其学会短路径计算,再逐步加深推理过程,从而保证了多轮递归中激活值的稳定。
Bengio团队的GRAM:学术界对分层递归路线的共鸣
HRM-Text的发布并非孤立事件。图灵奖得主Yoshua Bengio作为共同作者参与的论文《Generative Recursive Reasoning Models》(GRAM),在核心计算骨架上与HRM高度复用。
对比两者可以发现,它们在以下核心假设上高度一致:
- 高低层状态:GRAM同样存在high-level和low-level的递归状态,用于建模不同层级的推理。
- 双时间尺度:两者都采用高低层状态之间的递归交互,形成分层、多步的内部计算。
- 潜空间递归:GRAM同样强调在潜空间中进行递归生成,而非单纯依赖显式文本CoT。
GRAM在HRM的确定性递归骨架之上,进一步加入了概率生成模块,使其能够围绕多个潜在推理轨迹进行生成和采样。这表明,Sapient率先走通并开源的HRM架构,已经成为下一代推理模型研究中的重要参照系,其技术思想正在被全球顶尖的人工智能研究者所吸收和扩展。
总结与展望:打破Scaling Law的重工业垄断
对于整个大模型行业而言,HRM-Text的意义不仅在于证明了“小模型也能做好推理”,更在于它打破了“只有巨额算力才能验证新架构”的思维惯性。
虽然HRM-Text目前仍处于Proof of Concept(概念验证)阶段,在知识覆盖、长上下文以及工具使用等方面仍需时间检验,但它为企业落地和学术研究提供了全新的启发。企业在构建专属AI应用时,或许不必完全依赖庞大的基础设施,而是可以通过优化计算结构,在特定任务上获得更高效、更可控的推理能力。而对于缺乏巨额预算的开源社区和研究者来说,这也重新打开了探索前沿架构假设的大门。
AI推理正在从“写出思维链”向“形成内部思维结构”转变。想要获取更多关于提示词优化、AI变现以及前沿AGI技术的深度解析,欢迎持续关注 AIGC.bar。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)