国产GPU获SGLang「原生门票」：MUSA深度融合，AI推理生态新篇章

type

status

date

slug

summary

国产GPU生态里程碑：MUSA荣获SGLang「原生门票」

近期，AI硬件领域迎来一项重要进展：国产GPU厂商摩尔线程（Moore Threads）的核心计算系统MUSA（Meta-computing Unified System Architecture）成功被全球顶级大模型推理框架SGLang接纳，并正式合入其主线代码库。这一事件标志着摩尔线程不仅打破了国际巨头在AI软件栈中的壁垒，更以共建者的姿态，成为全球主流AI开源生态的有机组成部分，为国产AI算力赢得了“原生支持”的通行证。

此前，大模型推理框架的适配往往是国产硬件厂商面临的一大挑战。然而，摩尔线程通过与SGLang社区的深度协同，成功打通了从底层硬件架构到上层模型部署的全链路适配，使得包括DeepSeek V4在内的众多主流大模型，能够直接在摩尔线程的GPU上实现高效推理，无需复杂的第三方适配层。这对于加速国产AI算力的落地应用，以及推动整个AI生态的多元化发展，无疑具有深远意义。

MUSA拥抱开源：摩尔线程的“零学习成本”战略

摩尔线程之所以能迅速融入SGLang这一活跃的开源社区，源于其坚持的“通用计算”与“开放生态”战略。摩尔线程CTO张钰勃强调，MUSA开放架构的设计理念，旨在最大程度地复用开发者熟悉的GPU编程习惯，实现“零学习成本”的生态迁移。这意味着开发者在从其他GPU平台迁移至摩尔线程GPU时，无需重构现有代码或投入大量精力学习新的编程范式。

这一策略在工程实践中得到了充分体现。摩尔线程自今年1月起，便向SGLang社区提交了详尽的MUSA支持路线图，涵盖了runtime、Kernel支持、多模态推理、Docker集成等多个关键环节。通过提交大量Pull Request（PR），MUSA后端已正式成为SGLang官方支持矩阵中的一员，与AMD、Intel、NVIDIA等国际主流硬件并驾齐驱。

针对开发者关心的算子适配问题，摩尔线程开发了torchada适配层，能够自动将CUDA接口无缝桥接到MUSA平台，显著降低了适配与维护成本。对于性能要求极高的算子，则利用其开源高性能算子库MATE（MUSA AI Tensor Engine），对接FlashAttention、FlashMLA等主流接口，确保了极致的计算性能。

全明星阵容见证：开源社区的深度认可

此次MUSA成功合入SGLang主线，并非孤立事件，而是得到了整个AI推理开源社区“全明星”阵容的见证与支持。在近日举办的「SGLang × MUSA Meetup」技术沙龙上，来自SGLang、Triton、TileLang、Mooncake等前沿开源项目的核心开发者齐聚一堂。

SGLang：作为当前最受欢迎的LLM推理框架之一，SGLang的核心开发者分享了其在Prefill-Decode分离架构、分层缓存机制以及Zero-overhead Speculative Decoding等方面的最新进展。MUSA已被纳入SGLang 2026 Q2的官方硬件支持路线图，双方将深化原生算子支持，推动国产算力与顶级推理框架的深度融合。

Triton与FlagOS：智源研究院AI编译器研究员肖航介绍了基于Triton的FlagOS生态。在MUSA平台上，FlagOS通过摩尔线程专用的张量加速引擎和FlagOSTune调优方案，显著降低了DeepSeek-V4的TTFT时延并提升了吞吐量，展现了跨芯片统一抽象与优化的强大能力。

TileLang：TileLang维护者唐正举展示了其作为Tile级领域特定编程语言（DSL）在算子硬件依赖化和性能调优上的核心优势。与MUSA生态的深度联调，旨在为其全功能GPU构建一套完整的高性能算子库，进一步释放国产算力潜力。

Mooncake：作为分布式推理基础设施的关键项目，Mooncake的贡献者马腾介绍了其在传输引擎、异构存储池化及弹性容错架构方面的创新。摩尔线程作为Mooncake的核心维护者之一，深度参与了多节点通信协议等关键特性的共建，为大规模AI生产与部署奠定基础。

这些来自全球最活跃AI开源项目的核心维护者的参与和认可，共同拼凑出了当前大模型推理栈的关键地图，而摩尔线程正站在地图的中心，成为生态构建的重要力量。

展望：国产GPU的生产力价值与生态影响力

摩尔线程MUSA与SGLang的深度融合，不仅仅是技术上的适配，更是国产AI算力从“追赶者”向“共建者”的战略升级。这意味着国产GPU不再仅仅是硬件的堆砌，而是真正具备了参与到全球AI软件生态建设的生产力价值。

原生支持，降低门槛：开发者可以直接使用SGLang调用摩尔线程GPU，无需第三方适配层，极大降低了算力迁移的门槛。

生态共建，驱动创新：摩尔线程不仅适配现有模型，更通过与社区的紧密合作，共同推动底层技术（如Jit Kernel、TileLang）的优化，加速AI技术前沿（如DeepSeek V4、多模态长文本）的演进。

软硬协同，释放潜能：通过MUSA开放架构与AI推理框架的深度协同，国产GPU的算力潜能得以更充分地释放，为AI应用落地提供坚实支撑。

从“跑通Demo”到“建立研发生态”，摩尔线程正通过拥抱开源、深入共建，证明其在AI硬件领域的硬实力不仅体现在算力指标上，更在于其对全球AI社区的贡献度和影响力。这标志着国产GPU的故事，正从单纯的硬件对标，迈向一个更加开放、协作、充满创新机遇的全新阶段。

访问 https://aigc.bar，获取最新AI资讯，了解AI技术前沿，探索AI的无限可能。