中科院Ouroboros：晶圆级存算一体实现15万tokens/s推理

type

status

date

slug

summary

什么是Ouroboros：彻底消除数据搬运的架构

Ouroboros的核心理念非常直观：让数据“原地不动”，计算直接发生在存储位置。该方案彻底摒弃了传统计算中数据在DRAM、SRAM与计算单元之间反复读写的模式，将模型所需的权重、KV Cache及激活值全部驻留在片上SRAM中。这种“数据不搬家，计算就地化”的范式，从根本上消除了数据传输带来的延迟和功耗开销，是目前解决大模型推理效率问题的最具潜力的路径之一。

层次化设计的精妙之处

为了实现这一宏大愿景，Ouroboros采用了精密的层次化硬件设计。首先是晶圆级集成，利用stitching技术将整片硅晶圆无缝拼接，构建出拥有54GB超大容量SRAM的计算平面，彻底消除了外部内存访问的必要。其次是芯片级组织，通过芯粒（Chiplet）网格网络实现高带宽互连，并引入核心级容错机制，确保了大规模芯片在复杂负载下的可靠性。最后是存算核心微架构的优化，每个核心内部集成了输入输出缓存与专用函数单元，能够高效处理softmax等关键操作，实现了计算与存储的深度耦合。

面临的挑战与协同设计策略

尽管Ouroboros展现了卓越的性能，但在实现过程中团队也克服了诸多系统级难题。SRAM的密度限制使得片上存储依然稀缺，因此，如何高效映射模型、如何调度海量计算单元以及如何实现计算与存储的“共生优化”，成为了设计的关键。研究团队专门开发了一套端到端推理框架，通过精细化的流水线切分、分层权重映射策略以及分布式动态KV缓存管理，最大化了有限硬件资源的利用率。想要深入了解更多关于大模型硬件优化及AI变现的最新动态，欢迎访问 https://aigc.bar 获取更多资讯。

极致的性能表现

实验数据证明了这一架构的强大实力。在运行Llama 13B模型时，Ouroboros系统的平均吞吐量达到现有顶尖系统的4.1倍，能效比更是提升了4.2倍。在特定测试中，其吞吐量最高可达9.1倍，能效比提升至17倍，稳定实现了15万tokens/s的推理速度。这一数据不仅刷新了推理性能的记录，也为未来构建高效、低功耗的AGI计算平台提供了有力的技术支撑。

结语：迈向高效计算的新时代

中科院Ouroboros方案的成功，标志着我们在消除数据搬运、构建高效大模型推理系统方向上迈出了坚实的一步。随着AI技术的快速演进，从底层硬件到上层算法的协同设计将成为行业主流。对于关注AI、LLM以及人工智能领域发展的从业者而言，持续跟踪此类硬核技术突破至关重要。如需获取更多AI资讯、提示词技巧及大模型应用指南，请持续关注我们的平台 https://aigc.bar，我们致力于为您提供最前沿的AI日报与行业深度观察。