中科院SpaceServe发布，终结多模态大模型推理瓶颈 | AI资讯

type

status

date

slug

summary

解码器为何“挨饿”？多模态AI的“行头阻塞”困境

要理解SpaceServe的突破性，我们首先需要了解当前多模态LLM服务面临的核心痛点：行头阻塞（head-of-line blocking）。

在现有的主流推理框架（如vLLM）中，处理多模态请求遵循一种“时间复用”（time-multiplexing）策略。您可以将其想象成一条单行道： 1. 编码阶段：GPU首先全力处理输入数据，例如对一张高分辨率图像进行视觉编码。这个过程可能耗时数百毫秒，就像一辆缓慢的重型卡车占用了整条道路。 2. 解码阶段：只有当编码任务完成后，GPU才能切换上下文，开始为所有等待的请求生成文本（解码）。

在高并发场景下，这条“单行道”的弊端暴露无遗。当一个耗时的编码任务（重卡）正在进行时，后面所有等待文本生成的解码请求（小汽车）都被迫停下等待。这导致解码器长时间处于空闲状态，即“解码器饥饿”。其直接后果是，随着请求量的增加，平均每个输出token的耗时（TPOT）急剧飙升，系统整体吞吐量断崖式下跌，用户体验严重受损。

SpaceServe的革命：从“时间复用”到“空分复用”

发表于顶级会议NeurIPS的论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LLMs》提出了截然不同的思路：空分复用（Space Multiplexing）。

如果说时间复用是“分时共享单行道”，那么空分复用就是“开辟专用并行车道”。研究团队的洞察源于一个关键发现： * 视觉编码器：计算密集型任务，像一个需要大量CPU算力的工厂。 * 文本解码器：内存密集型任务，像一个需要超高带宽来读写数据的仓库（主要用于KV Cache）。

这两者的资源需求天然互补，但在传统架构下却被强制串行执行，造成了GPU资源的巨大浪费。SpaceServe的核心创新正是要打破这一桎梏。

其关键技术在于EPD三阶段解耦与物理共置： 1. 逻辑解耦 (EPD)：将所有模态的编码器（Encoder）、文本预填充（Prefill）和解码（Decode）从逻辑上彻底分离，使它们可以被独立调度。 2. 物理共置：利用现代GPU（如NVIDIA GPU）提供的细粒度SM（Streaming Multiprocessor）分区能力，将计算密集的编码器任务和内存密集的解码器任务，同时部署在同一个GPU的不同物理计算单元上。

这不再是简单的任务切换，而是在微观层面实现了真正的并行执行，让“工厂”和“仓库”同时高效运转，互不干扰。

智能调度与资源分配：SpaceServe的技术内核

为了实现高效的“空分复用”，SpaceServe还设计了一套精密的运行时系统。

TWSRFT编码器调度策略：这可以看作一个智能的交通指挥系统。它在一个时间窗口内，优先处理“剩余工作量最短”的编码请求。这样做的好处是，可以有效避免一个超大图像（重卡）的编码任务长时间阻塞多个小图像（小车）的任务，从而使解码器的输入流更加平滑稳定，提升整体吞吐。

基于资源利用曲线的动态分配：SpaceServe在离线阶段会预先分析不同任务（如不同分辨率的图像）对SM计算单元的占用情况和延迟表现，构建出一套资源-效用模型。当在线服务时，系统会根据每个请求的元数据（如图像大小、上下文长度），实时、动态地为其分配最优数量的SM单元，以最小化端到端延迟。这种精细化的资源管理是其高性能的关键。

性能碾压：实测数据揭示SpaceServe的绝对优势

实践是检验真理的唯一标准。在对Qwen2-VL系列模型的测试中，SpaceServe相较于行业标杆vLLM展现出了压倒性的优势。

最显著的现象是：在高并发请求下，vLLM的TPOT（每token耗时）随着请求率急剧恶化（例如，从101ms飙升至365ms），而SpaceServe的TPOT几乎保持稳定（仅从8.85ms微增至12.62ms）。

这背后的根本原因在于，vLLM中编码器运行时，解码器完全停滞；而在SpaceServe中，解码器始终在GPU的专属分区上持续不断地生成token，真正做到了“解码不停歇”。

更有趣的是，SpaceServe的效果远优于简单的多进程方案（如NVIDIA MPS）。测试表明，MPS方案下编码器和解码器虽然在不同进程，但仍会争抢同一个SM内的微架构资源（如L1缓存），导致性能干扰。而SpaceServe通过物理SM分区，实现了“硬隔离”，确保了各自任务的最高执行效率，性能提升高达3.3倍。

开启多模态服务新纪元

SpaceServe的出现，其意义远不止于一篇顶级会议论文。它首次系统性地解决了多模态大模型推理服务中的核心瓶颈，为AGI时代的AI应用落地扫清了一大障碍。

更重要的是，该方案无需修改模型结构，能够无缝兼容现有的主流MLLM，并且代码已经开源。这预示着它极有可能被快速集成到vLLM、SGLang等主流推理框架中，成为行业标准。对于广大开发者和企业而言，这意味着未来部署高性能、高并发的多模态AI服务将变得更加简单和经济。

持续关注这类前沿的AI新闻和技术突破，是把握人工智能时代脉搏的关键。欢迎访问AI门户网站AIGC导航站（https://aigc.bar），获取更多关于ChatGPT、Claude以及其他前沿LLM的深度解析和实用Prompt教程。