国产GPU获SGLang「原生门票」:MUSA深度融合,AI推理生态新篇章
type
status
date
slug
summary
tags
category
icon
password
网址

国产GPU生态里程碑:MUSA荣获SGLang「原生门票」
近期,AI硬件领域迎来一项重要进展:国产GPU厂商摩尔线程(Moore Threads)的核心计算系统MUSA(Meta-computing Unified System Architecture)成功被全球顶级大模型推理框架SGLang接纳,并正式合入其主线代码库。这一事件标志着摩尔线程不仅打破了国际巨头在AI软件栈中的壁垒,更以共建者的姿态,成为全球主流AI开源生态的有机组成部分,为国产AI算力赢得了“原生支持”的通行证。
此前,大模型推理框架的适配往往是国产硬件厂商面临的一大挑战。然而,摩尔线程通过与SGLang社区的深度协同,成功打通了从底层硬件架构到上层模型部署的全链路适配,使得包括DeepSeek V4在内的众多主流大模型,能够直接在摩尔线程的GPU上实现高效推理,无需复杂的第三方适配层。这对于加速国产AI算力的落地应用,以及推动整个AI生态的多元化发展,无疑具有深远意义。
MUSA拥抱开源:摩尔线程的“零学习成本”战略
摩尔线程之所以能迅速融入SGLang这一活跃的开源社区,源于其坚持的“通用计算”与“开放生态”战略。摩尔线程CTO张钰勃强调,MUSA开放架构的设计理念,旨在最大程度地复用开发者熟悉的GPU编程习惯,实现“零学习成本”的生态迁移。这意味着开发者在从其他GPU平台迁移至摩尔线程GPU时,无需重构现有代码或投入大量精力学习新的编程范式。
这一策略在工程实践中得到了充分体现。摩尔线程自今年1月起,便向SGLang社区提交了详尽的MUSA支持路线图,涵盖了runtime、Kernel支持、多模态推理、Docker集成等多个关键环节。通过提交大量Pull Request(PR),MUSA后端已正式成为SGLang官方支持矩阵中的一员,与AMD、Intel、NVIDIA等国际主流硬件并驾齐驱。
针对开发者关心的算子适配问题,摩尔线程开发了
torchada适配层,能够自动将CUDA接口无缝桥接到MUSA平台,显著降低了适配与维护成本。对于性能要求极高的算子,则利用其开源高性能算子库MATE(MUSA AI Tensor Engine),对接FlashAttention、FlashMLA等主流接口,确保了极致的计算性能。全明星阵容见证:开源社区的深度认可
此次MUSA成功合入SGLang主线,并非孤立事件,而是得到了整个AI推理开源社区“全明星”阵容的见证与支持。在近日举办的「SGLang × MUSA Meetup」技术沙龙上,来自SGLang、Triton、TileLang、Mooncake等前沿开源项目的核心开发者齐聚一堂。
- SGLang:作为当前最受欢迎的LLM推理框架之一,SGLang的核心开发者分享了其在Prefill-Decode分离架构、分层缓存机制以及Zero-overhead Speculative Decoding等方面的最新进展。MUSA已被纳入SGLang 2026 Q2的官方硬件支持路线图,双方将深化原生算子支持,推动国产算力与顶级推理框架的深度融合。
- Triton与FlagOS:智源研究院AI编译器研究员肖航介绍了基于Triton的FlagOS生态。在MUSA平台上,FlagOS通过摩尔线程专用的张量加速引擎和FlagOSTune调优方案,显著降低了DeepSeek-V4的TTFT时延并提升了吞吐量,展现了跨芯片统一抽象与优化的强大能力。
- TileLang:TileLang维护者唐正举展示了其作为Tile级领域特定编程语言(DSL)在算子硬件依赖化和性能调优上的核心优势。与MUSA生态的深度联调,旨在为其全功能GPU构建一套完整的高性能算子库,进一步释放国产算力潜力。
- Mooncake:作为分布式推理基础设施的关键项目,Mooncake的贡献者马腾介绍了其在传输引擎、异构存储池化及弹性容错架构方面的创新。摩尔线程作为Mooncake的核心维护者之一,深度参与了多节点通信协议等关键特性的共建,为大规模AI生产与部署奠定基础。
这些来自全球最活跃AI开源项目的核心维护者的参与和认可,共同拼凑出了当前大模型推理栈的关键地图,而摩尔线程正站在地图的中心,成为生态构建的重要力量。
展望:国产GPU的生产力价值与生态影响力
摩尔线程MUSA与SGLang的深度融合,不仅仅是技术上的适配,更是国产AI算力从“追赶者”向“共建者”的战略升级。这意味着国产GPU不再仅仅是硬件的堆砌,而是真正具备了参与到全球AI软件生态建设的生产力价值。
- 原生支持,降低门槛:开发者可以直接使用SGLang调用摩尔线程GPU,无需第三方适配层,极大降低了算力迁移的门槛。
- 生态共建,驱动创新:摩尔线程不仅适配现有模型,更通过与社区的紧密合作,共同推动底层技术(如Jit Kernel、TileLang)的优化,加速AI技术前沿(如DeepSeek V4、多模态长文本)的演进。
- 软硬协同,释放潜能:通过MUSA开放架构与AI推理框架的深度协同,国产GPU的算力潜能得以更充分地释放,为AI应用落地提供坚实支撑。
从“跑通Demo”到“建立研发生态”,摩尔线程正通过拥抱开源、深入共建,证明其在AI硬件领域的硬实力不仅体现在算力指标上,更在于其对全球AI社区的贡献度和影响力。这标志着国产GPU的故事,正从单纯的硬件对标,迈向一个更加开放、协作、充满创新机遇的全新阶段。
访问 https://aigc.bar,获取最新AI资讯,了解AI技术前沿,探索AI的无限可能。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)