北大团队推出HISA机制：DeepSeek注意力提速4倍，长文本处理再突破

type

status

date

slug

summary

引言：DeepSeek长文本处理的又一次进化

在生成式AI领域，DeepSeek凭借其卓越的性能和开源精神，一直是开发者关注的焦点。就在业界屏息期待DeepSeek-V4发布之际，北京大学张牧涵团队的一项最新研究成果——HISA（分层索引稀疏注意力），为大模型的长文本处理效率带来了质的飞跃。

这项研究针对DeepSeek当前使用的DSA（DeepSeek Sparse Attention）机制进行了深度改造，在保持精度几乎无损的前提下，将索引速度提升了2至4倍。更令人兴奋的是，这种方法具有“即插即用”的特性，无需重新训练模型，这为长文本时代的AI应用开辟了新的可能。想要了解更多前沿AI资讯，欢迎访问 AI门户。

核心痛点：长文本索引的“平方级”瓶颈

在处理超长上下文（如64K、128K甚至更长）时，大模型通常采用稀疏注意力机制。其核心逻辑是：不再计算所有字符（token）之间的关联，而是只挑选最关键的token进行计算。

然而，现有的稀疏注意力机制（如DSA）存在一个致命的隐藏问题：索引器瓶颈。为了挑出相关的token，索引器需要为每个待查字符与前面所有的字符进行打分。随着文本长度L的增加，这种打分的工作量呈 $L^2$（平方级）增长。当文本达到超长规模时，挑选token的时间甚至超过了真正的注意力计算时间，成为了拖慢模型响应速度的元凶。

HISA的解法：分层筛选的“两步走”策略

北大团队提出的HISA（Hierarchical Indexed Sparse Attention），其核心逻辑非常巧妙：既然挨个给字符打分太慢，那就先进行“块级”筛选。

块级粗过滤：HISA将长文本切割成固定大小的“字符块”（如128个字符一组），并为每个块生成一个整体特征向量。系统先给这些块打分，迅速剔除掉大部分无关的块。

块内精挑选：在保留下来的少数高分块中，再按照原有的规则对单个字符进行精细打分，选出最终需要的关键token。

这种“先粗后精”的策略，将原本沉重的计算负担大幅减轻。此外，HISA还特别优化了首尾块的保留策略，确保背景信息和最新上下文不被丢失。

性能实测：快四倍且不丢精度的奇迹

研究团队在 DeepSeek-V3.2 和 GLM-5 两大主流大模型上进行了实测。结果显示，在64K长度的文本下，HISA相比原有的DSA索引器最高提速达3.75倍。

在精度方面，HISA的表现同样惊艳。在著名的“大海捞针”测试（Needle In A Haystack）中，HISA的检索精度与原DSA方法几乎完全持平，均接近满分。这意味着，虽然我们换了一个更快的“筛子”，但筛出来的核心内容并没有改变。在LongBench长文本理解基准测试中，HISA甚至在某些特定任务中实现了对原方法的微弱反超。

工程优势：大模型的“无缝补丁”

对于开发者和企业而言，HISA最具吸引力的不仅仅是速度，而是其极高的工程友好性：

无需重训：HISA直接复用原模型的打分规则，可以在现有模型上直接替换索引模块。

自适应性：在处理短文本时，HISA会自动退化为传统方法；只有在超长文本场景下才会触发分层筛选，全程无感切换。

鲁棒性强：测试表明，HISA对块大小等超参数的选择并不敏感，极大降低了落地时的调参成本。

这种技术突破对于推动LLM（大语言模型）在长文档分析、代码库理解等领域的应用具有重要意义。

结论：长文本时代的效率革命

北大团队的HISA机制，通过创新的分层索引思路，成功攻克了稀疏注意力机制在超长上下文下的效率难题。它不仅为DeepSeek等顶尖大模型提供了强有力的性能补充，也为未来AGI（通用人工智能）的发展提供了新的优化范式。

随着人工智能技术的不断迭代，如何在高精度与高效率之间取得平衡，始终是科研人员探索的核心。HISA的出现，无疑为这一目标提供了完美的答案。获取更多关于openai、chatGPT及claude的最新动态和Prompt技巧，请持续关注 aigc.bar，掌握一手AI新闻。