超DeepEP两倍!无问芯穹FUSCO如何以「空中变阵」突破MoE通信瓶颈,加速Agent爆发

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:MoE 架构盛行下的隐形枷锁

随着人工智能技术的飞速发展,主流大模型如 ChatGPT、DeepSeek-V3 以及 Kimi-K2 等,为了在提升模型容量的同时兼顾计算效率,纷纷转向了混合专家架构(Mixture-of-Experts, MoE)。然而,在追求更强推理能力和更长上下文的过程中,开发者们发现,传统的通信方案正逐渐成为系统性能的“阿喀琉斯之踵”。
特别是在代码智能体(Agent)和长文本对话场景中,用户请求的激增和上下文长度的拉长,使得跨专家的通信与调度成本呈指数级增长。传统的通信库在处理非连续、动态重排的数据访问时显得力不从心。针对这一痛点,无问芯穹联合多家顶尖科研机构推出了 FUSCO 通信库,以革命性的「空中变阵」技术,实现了超越 DeepEP 两倍的性能突破,为 Agent 的爆发式增长提供了坚实的底层支撑。

传统 MoE 通信的痛点:数据重排的沉重代价

在专家并行(Expert Parallelism, EP)策略下,模型被拆分并部署在不同的 GPU 上。当一个 Token 需要被送往特定的“专家”进行处理时,它往往需要跨越设备进行传输。这个过程被称为分布式数据重排(Distributed Data Shuffling)。
目前,像 NCCL 这样主流的通信库遵循的是“通信与数据布局解耦”的设计。这意味着在发送数据前,系统必须先在本地内存中把零散的 Token 整理成连续的块;在接收端收到后,又要重新拆解并放置到正确的位置。根据实测数据,在机内 NVLink 环境下,这种重排操作占用了总通信时间的 68.8%。这种“为了搬运而搬运”的冗余操作,在长上下文和高并发场景下,直接导致了系统吞吐量的急剧下降。

FUSCO 的核心创新:让数据在传输中「空中变阵」

FUSCO 的核心设计哲学在于“融合”。它打破了传统设计中通信与数据布局的界限,提出了一种数据与通信协同设计的路径。其核心思路可以概括为:既然通信本身就需要定义数据的来源和去向,为什么不直接在传输的过程中完成布局的转换?
  1. gather-send(聚合发送):发送端不再进行前置的内存拷贝,而是根据段描述符,直接从多个不连续的内存位置读取数据并发起传输。
  1. scatter-recv(离散接收):接收端在接收到数据流的同时,直接将其写入目标布局的对应位置,无需后置的重排。
这种方式就像是在空中完成了一次“变阵”,数据从源头出发到终点落位,中间没有任何多余的停顿和拷贝。这种跨层融合的优化,彻底消除了重排开销,将 GPU 和网络带宽的利用率推向了极限。

负载均衡与跨节点去重:更智能的调度策略

除了底层算子的融合,FUSCO 在通信调度层面也进行了深度优化。在实际的 MoE 运行中,经常会出现一个 Token 被路由到同一节点内不同 GPU 上的多个专家。传统的 All-to-All 通信会机械地重复发送多份相同数据,浪费宝贵的跨机带宽。
FUSCO 引入了“转发 GPU”机制。它在每个目标节点指定一个转发节点,跨机传输时只发送一份数据,到达目标节点后再通过高速的机内链路(如 NVLink)进行分发。此外,FUSCO 还能自动感知负载情况,将转发任务均匀分布在不同的 GPU 上,避免产生网络热点,从而在复杂的大规模集群环境下保持极高的稳定性。

性能实测:超越 DeepEP,助力 Agent 规模化落地

实验数据证明了 FUSCO 的强悍性能。在 64 张 GPU 的测试环境下,针对真实推理流量、单节点路由流量以及负载不均衡流量三种场景,FUSCO 表现优异: * 通信效率:相较于 NCCL 提升了最高 3.84 倍,相较于 DeepSeek 开发的 DeepEP 提升了 2.01 倍。 * 端到端表现:在 Qwen3-235B 和 DeepSeek-V3 等主流模型的训练和推理测试中,端到端性能提升最高达 40%。 * 长上下文支持:随着文本长度增加(如达到 2048K tokens),FUSCO 的优势愈发明显。
这意味着,对于需要处理极长上下文、进行复杂任务规划的 Agent 应用来说,FUSCO 能够显著降低推理延迟,提高单机的服务吞吐,从而大幅降低运营成本。

结论与展望:释放硬件潜力,迎接 AGI 时代

无问芯穹 FUSCO 的出现,不仅是通信库技术的迭代,更是对大模型系统底层优化逻辑的一次重构。它通过消除冗余的内存操作,让算力更纯粹地服务于计算本身,为 Agent 爆发和 AGI 的落地扫清了通信障碍。
目前,FUSCO 已在 GitHub 开源,并支持主流的 MoE 训练和推理框架。随着更多开发者接入这一高效通信方案,我们有理由期待,更加智能、响应更快的 AI 应用将以前所未有的速度普及。
获取更多前沿 AI 资讯、大模型技术深度解读及 AGI 行业动态,请访问 https://aigc.bar。在这里,我们共同见证人工智能重塑未来的每一个瞬间。
Loading...

没有找到文章