DeepSeek新论文解析:DualPath破解大模型推理瓶颈
type
status
date
slug
summary
tags
category
icon
password
网址

每天都在关注chatGPT、claude和openai的最新动态?虽然大家翘首以盼的DeepSeek V4尚未正式发布,但在人工智能领域,DeepSeek联合清华大学、北京大学最新发布的一篇重磅论文已经引发了AI新闻界的广泛关注。
这篇论文提出了一种名为「DualPath」的创新推理系统,专门针对智能体(Agent)工作负载下大模型(LLM)的推理性能瓶颈进行了深度优化。通过引入「双路径 KV-Cache 加载」机制,DualPath成功解决了在预填充-解码分离架构下的读取负载不平衡问题。本文将为您深度解析这项硬核技术。获取更多前沿AI资讯,欢迎访问我们的AI门户:https://aigc.bar。
智能体时代的全新挑战:存储带宽瓶颈
随着AGI(通用人工智能)的不断演进,智能体已经成为当前主流的AI开发范式。然而,在多轮互动的智能体场景中,系统面临着全新的物理瓶颈——存储带宽。
在复杂的智能体交互中,上下文信息会随着对话轮次迅速累积,呈现出极其明显的「长上下文、短追加」特征。研究数据表明,这类负载的KV-Cache命中率通常高达95%以上。这意味着,决定大模型推理系统性能的核心因素,已经从单纯的GPU计算能力,转移到了从存储设备中加载KV-Cache的效率上。
在现有的预填充-解码分离(PD-disaggregated)架构中,所有的存储I/O压力几乎全部集中在预填充引擎(PE)的存储网卡上,而解码引擎(DE)的存储带宽却处于闲置状态。这种极度的带宽利用不平衡,成为了限制整个集群吞吐量的核心障碍。
DualPath的核心创新:双路径KV-Cache加载
为了彻底打破单点I/O的限制,DeepSeek研究团队提出了DualPath架构,重新设计了数据加载路径。其核心创新在于引入了「存储到解码(Storage-to-Decode)」的全新路径。
一方面,系统实现了双路并行。KV-Cache不再仅仅是单向直接读入预填充引擎,它现在还可以先加载到解码引擎的缓冲区中,随后通过极高带宽的RDMA计算网络,高效、快速地传输至预填充引擎。
另一方面,DualPath实现了带宽资源的全局池化。通过动态分配这两条路径的负载,系统成功将整个计算集群中所有引擎的存储网卡聚合为一个全局容量池。这样一来,无论是预填充侧还是解码侧的硬件资源,都能得到最大化的利用,彻底消除了单点瓶颈。
应对实际挑战:精细化调度与流量隔离
在实际的生产环境中,双路径架构虽然在理论上极大地提升了带宽上限,但也引入了复杂的工程挑战。为了确保大规模数据传输不干扰对延迟极其敏感的模型推理任务,DualPath采用了多项关键技术。
首先是以计算网卡(CNIC)为中心的流量管理。系统将所有与GPU相关的流量统一通过计算网卡进行管理,并巧妙利用网络的服务质量(QoS)机制,将推理通信设定为最高优先级。这意味着加载KV-Cache的流量只会“见缝插针”地利用闲置带宽,绝不影响模型生成的延迟目标。
其次是自适应请求调度。中心化的调度器会实时监控各个引擎的磁盘读取队列长度和当前的计算负载,动态决定每一个请求的最优传输路径。这种精细化的调度机制,最大限度地减少了GPU执行过程中的等待气泡,确保了算力的高效输出。
性能评估:吞吐量的显著飞跃
研究团队在包含1152个GPU的大规模生产集群上,对DualPath进行了严苛的评估。底层使用了FlashMLA、DeepGEMM等高性能算子,并采用了3FS分布式存储。
在模拟多智能体并发的离线批量推理场景中,随着批量规模的增大和最大智能体长度的增加,DualPath的优势愈发明显。在DS 660B(MoE+稀疏注意力)模型上,DualPath相比传统基础架构最高实现了1.87倍的吞吐量加速,几乎消除了KV-Cache的I/O开销。
在模拟真实生产环境的在线推理服务场景中,DualPath同样表现优异。它显著提高了系统可承载的并发到达率上限——在DS 27B模型上提升了1.67倍,在DS 660B上更是提升了2.25倍。同时,它并未引入额外的解码开销,首字延迟(TTFT)等关键指标在极高负载下依然保持了出色的结构稳定性。
总结与展望
DeepSeek联合清华、北大推出的DualPath系统,为解决智能体时代大模型推理的存储瓶颈提供了一个优雅且高效的解决方案。通过打破预填充侧的I/O限制,聚合全局存储带宽,DualPath不仅大幅提升了系统的吞吐量,也为未来更复杂的AI应用奠定了坚实的基础。
在人工智能飞速发展的今天,从底层架构的优化到上层应用的出圈,每一步都在重塑我们的工作与生活。想要获取每天最新的AI日报、掌握高级的提示词(Prompt)技巧,或者探索AI变现的无限可能,欢迎持续关注我们的AI门户:https://aigc.bar,与我们一起站在技术的最前沿!
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)