中科院Ouroboros:晶圆级存算一体实现15万tokens/s推理

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在当前人工智能的“军备竞赛”中,大模型参数规模的不断膨胀使得算力需求呈指数级增长。然而,制约AI性能的不仅是计算逻辑的复杂度,更在于一个长期被忽视的“隐性开销”——数据搬运。在传统冯·诺依曼架构中,频繁的DRAM访存操作不仅带来了高延迟,更消耗了绝大部分的系统能耗。为了打破这一“存储墙”,中国科学院计算技术研究所的科研团队在ASPLOS '26会议上提出了名为Ouroboros的创新方案,通过晶圆级集成与存算一体技术的深度结合,为大模型推理带来了革命性的性能飞跃。

什么是Ouroboros:彻底消除数据搬运的架构

Ouroboros的核心理念非常直观:让数据“原地不动”,计算直接发生在存储位置。该方案彻底摒弃了传统计算中数据在DRAM、SRAM与计算单元之间反复读写的模式,将模型所需的权重、KV Cache及激活值全部驻留在片上SRAM中。这种“数据不搬家,计算就地化”的范式,从根本上消除了数据传输带来的延迟和功耗开销,是目前解决大模型推理效率问题的最具潜力的路径之一。

层次化设计的精妙之处

为了实现这一宏大愿景,Ouroboros采用了精密的层次化硬件设计。首先是晶圆级集成,利用stitching技术将整片硅晶圆无缝拼接,构建出拥有54GB超大容量SRAM的计算平面,彻底消除了外部内存访问的必要。其次是芯片级组织,通过芯粒(Chiplet)网格网络实现高带宽互连,并引入核心级容错机制,确保了大规模芯片在复杂负载下的可靠性。最后是存算核心微架构的优化,每个核心内部集成了输入输出缓存与专用函数单元,能够高效处理softmax等关键操作,实现了计算与存储的深度耦合。

面临的挑战与协同设计策略

尽管Ouroboros展现了卓越的性能,但在实现过程中团队也克服了诸多系统级难题。SRAM的密度限制使得片上存储依然稀缺,因此,如何高效映射模型、如何调度海量计算单元以及如何实现计算与存储的“共生优化”,成为了设计的关键。研究团队专门开发了一套端到端推理框架,通过精细化的流水线切分、分层权重映射策略以及分布式动态KV缓存管理,最大化了有限硬件资源的利用率。想要深入了解更多关于大模型硬件优化及AI变现的最新动态,欢迎访问 https://aigc.bar 获取更多资讯。

极致的性能表现

实验数据证明了这一架构的强大实力。在运行Llama 13B模型时,Ouroboros系统的平均吞吐量达到现有顶尖系统的4.1倍,能效比更是提升了4.2倍。在特定测试中,其吞吐量最高可达9.1倍,能效比提升至17倍,稳定实现了15万tokens/s的推理速度。这一数据不仅刷新了推理性能的记录,也为未来构建高效、低功耗的AGI计算平台提供了有力的技术支撑。

结语:迈向高效计算的新时代

中科院Ouroboros方案的成功,标志着我们在消除数据搬运、构建高效大模型推理系统方向上迈出了坚实的一步。随着AI技术的快速演进,从底层硬件到上层算法的协同设计将成为行业主流。对于关注AI、LLM以及人工智能领域发展的从业者而言,持续跟踪此类硬核技术突破至关重要。如需获取更多AI资讯、提示词技巧及大模型应用指南,请持续关注我们的平台 https://aigc.bar,我们致力于为您提供最前沿的AI日报与行业深度观察。
Loading...

没有找到文章