1500美元打破大模型垄断？深度解析HRM潜空间推理新架构

type

status

date

slug

summary

什么是HRM架构：把草稿纸放回模型的“脑子”里

传统的推理模型（如使用思维链 CoT 的模型）更像是在“边说边想”。它们把推理过程写成一串Token，让模型一步步输出中间过程。这种方式虽然有效，但也带来了明显的弊端：Token越写越长导致推理成本飙升；中间一步出错，后面就会满盘皆输；更重要的是，模型容易学会“看起来像推理”的文本，而非真正掌握“推理的结构”。

HRM（分层推理模型）则走了一条截然不同的道路：潜空间推理（Latent Reasoning）。

HRM的核心思想是：推理为什么一定要写出来？人类在解决复杂问题时，往往会在脑海中反复尝试、修正、排除，最后才说出答案。HRM正是试图把“草稿纸”从嘴上拿下来，放回模型的脑子里。它不要求模型输出冗长的思维链Token，而是让模型在输出最终答案之前，在内部的潜空间状态中进行多轮、分层的递归计算。

H/L双时间尺度：模型内部的“双脑区”协同

标准Transformer架构像一条流水线，输入数据后一层一层往前走，每一层只处理一次，最后输出。要提升能力，通常只能增加层数和参数。

而HRM在模型内部设计了两个以不同节奏工作的模块，相当于两个协同工作的“脑区”：

高层模块（H）：战略脑。它更新频率较慢，负责把握整体方向、维持长期上下文，决定当前应该往哪里思考。

低层模块（L）：执行脑。它更新频率较快，负责局部计算、细节修正，一步步将问题往前推。

这两个模块并不是两个独立的Agent在用自然语言对话，而是在同一个神经网络、同一个潜空间中，反复更新同一份内部状态。这种“高层Slow、低层Fast”的双时间尺度递归架构，使得有限的参数能够参与到更深度的有效计算中。这就好比一个人不是多背了几本书，而是学会了在脑子里把问题多转几个弯。

1500美元与40B Token：高效背后的三大技术基石

HRM-Text仅使用约40B unique tokens进行训练（作为对比，Llama 3.2 3B使用了约9T tokens，是其225倍），却在MATH、GSM8K等推理任务上取得了惊人的成绩。这并非依靠单点技巧，而是得益于其在架构、学习目标和训练方法上的系统性重构：

第一，改变了模型“怎么算”。HRM-Text不靠堆叠层数，而是通过多轮内部递归计算加深计算深度。

第二，改变了模型“学什么”。传统的语言模型训练需要预测整段文本的所有Token。而HRM-Text采用了PrefixLM attention mask，在指令部分充分整合上下文，仅对回答部分的损失（Loss）进行计算。这意味着训练信号被高度集中在“如何完成任务”上，而不是平均分散在整段文本的预测中。

第三，解决了递归训练易崩溃的难题。递归架构在训练时极易出现激活值方差累积、梯度消失或爆炸的问题。HRM-Text引入了MagicNorm和warmup deep credit assignment（热身深层信用分配）。它不急于让模型一开始就为所有深层递归步骤负责，而是先让其学会短路径计算，再逐步加深推理过程，从而保证了多轮递归中激活值的稳定。

Bengio团队的GRAM：学术界对分层递归路线的共鸣

HRM-Text的发布并非孤立事件。图灵奖得主Yoshua Bengio作为共同作者参与的论文《Generative Recursive Reasoning Models》（GRAM），在核心计算骨架上与HRM高度复用。

对比两者可以发现，它们在以下核心假设上高度一致：

高低层状态：GRAM同样存在high-level和low-level的递归状态，用于建模不同层级的推理。

双时间尺度：两者都采用高低层状态之间的递归交互，形成分层、多步的内部计算。

潜空间递归：GRAM同样强调在潜空间中进行递归生成，而非单纯依赖显式文本CoT。

GRAM在HRM的确定性递归骨架之上，进一步加入了概率生成模块，使其能够围绕多个潜在推理轨迹进行生成和采样。这表明，Sapient率先走通并开源的HRM架构，已经成为下一代推理模型研究中的重要参照系，其技术思想正在被全球顶尖的人工智能研究者所吸收和扩展。

总结与展望：打破Scaling Law的重工业垄断

对于整个大模型行业而言，HRM-Text的意义不仅在于证明了“小模型也能做好推理”，更在于它打破了“只有巨额算力才能验证新架构”的思维惯性。

虽然HRM-Text目前仍处于Proof of Concept（概念验证）阶段，在知识覆盖、长上下文以及工具使用等方面仍需时间检验，但它为企业落地和学术研究提供了全新的启发。企业在构建专属AI应用时，或许不必完全依赖庞大的基础设施，而是可以通过优化计算结构，在特定任务上获得更高效、更可控的推理能力。而对于缺乏巨额预算的开源社区和研究者来说，这也重新打开了探索前沿架构假设的大门。

AI推理正在从“写出思维链”向“形成内部思维结构”转变。想要获取更多关于提示词优化、AI变现以及前沿AGI技术的深度解析，欢迎持续关注 AIGC.bar。