LLMSched揭秘:上交大AI新突破,企业级LLM流程调度提速79%
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,大语言模型(LLM)的应用早已不再局限于简单的问答。一种被称为“复合LLM应用”(Compound LLM Applications)的新范式正成为企业级AI的核心,它如同一个智能团队,将LLM与外部工具、API或其他模型高效协同,构成复杂的多阶段工作流。然而,这种先进应用的背后,隐藏着一个巨大的性能瓶颈:调度。
由于LLM本身的生成特性和决策能力,这些复合应用在运行时充满了不确定性,导致任务时长和执行流程难以预测,传统调度器因此捉襟见肘,严重拖慢了整个系统的效率。面对这一挑战,上海交通大学朱怡飞教授团队与江行智能联合提出了一个革命性的调度框架——LLMSched。这项已被顶会IEEE ICDCS’ 25接收的研究,展示了如何通过智能方法驯服不确定性,最终将平均任务完成时间缩短了惊人的14%至79%。
复合LLM应用的“不确定性”之痛
要理解LLMSched的巧妙之处,首先必须直面复合LLM应用带来的两大核心挑战:
- 时长不确定性:LLM的自回归生成特性意味着其输出长度和所需计算时间是动态变化的。实验数据显示,单个LLM任务的耗时波动可高达300秒。这种剧烈的波动让传统的“最短任务优先”(Shortest Job First, SJF)等策略完全失效,因为调度器根本无法准确预估哪个任务“更短”。
- 结构不确定性:在许多高级应用(如AI Agent)中,LLM扮演着规划者的角色,它会根据中间结果动态决定下一步要执行哪些任务。这意味着整个工作流的结构(即任务步骤和依赖关系)在运行前是未知的,甚至在运行中会发生改变。
这两种不确定性叠加在一起,对集群资源调度构成了前所未有的挑战。一个错误的调度决策,就可能导致宝贵的GPU资源长时间空闲,或让高优先级任务陷入漫长的等待,最终降低整个AI系统的吞吐量和响应速度。
LLMSched的核心武器(一):用DAG重构驯服“结构混乱”
为了应对变幻莫测的“结构不确定性”,LLMSched的第一步是建立一个稳固的调度基础。研究团队创新性地提出了一种全新的有向无环图(DAG)建模框架。
这个新框架不再将工作流视为一个不可预测的黑盒,而是通过引入三种特殊节点来对其进行精细化表征:
- 常规节点 (Regular Stage):代表确定性的操作,如调用外部工具或API。
- LLM 节点 (LLM Stage):专门代表LLM推理任务,其时长具有不确定性。
- 动态虚拟节点 (Dynamic Stage):这是一个占位符,代表由LLM在运行时动态规划生成的子工作流。
通过这种方式,任何复杂的复合LLM应用都可以被表征为一个拥有固定拓扑结构的调度单元。即使其中包含动态生成的部分,其“不确定性”也被封装在动态虚拟节点内部。这步重构至关重要,它将一个动态变化的调度问题,转化为了一个可在固定结构上进行优化的问题,为后续的智能决策奠定了基石。
LLMSched的核心武器(二):贝叶斯网络与熵减,让系统越算越“聪明”
解决了结构问题后,LLMSched开始着手处理“时长不确定性”。团队敏锐地发现,工作流中的各个任务节点并非完全独立,它们之间存在着显著的关联性。例如,执行完一个规划节点后,后续子任务的结构就完全确定了;或者,完成某个前置任务后,后续任务的运行时长分布会变得更加“紧凑”和可预测。
LLMSched利用这种关联性,让系统变得越算越“清醒”:
- 贝叶斯网络(BN)分析器:团队首先为应用收集大量运行时数据,并基于重构后的DAG模型训练一个贝叶斯网络。这个网络能够精确地学习到各个节点运行时长的概率分布,以及它们之间的条件依赖关系。它就像一个经验丰富的专家,知道完成任务A之后,任务B的时长会如何变化。
- 熵减(Entropy Reduction)衡量机制:知道了关联性还不够,调度器需要一个量化指标来做出最优决策。LLMSched引入了信息论中的“信息熵”概念。信息熵可以理解为“不确定性的度量”。执行一个任务带来的“熵减”,就等于它为整个系统消除了多少不确定性。通过计算互信息,LLMSched可以精确地知道,在当前时刻,执行哪个任务能够最大程度地降低后续任务的不确定性,从而让未来的调度决策建立在更准确的预测之上。
结合了探索-利用策略,LLMSched在调度时会智能地平衡“立即执行已知最快的任务”(利用)和“执行能最大化降低不确定性的任务”(探索)之间的关系,从而实现全局最优。
惊人成果:性能、扩展性与开销的全方位胜利
理论的先进性最终要通过实验来检验。在一个搭载H800 GPU的真实环境中,LLMSched的表现堪称惊艳。
- 性能飞跃:与现有的多种调度器相比,LLMSched最多可将平均任务完成时间(JCT)降低79%。这意味着在相同的时间内,企业可以处理更多的AI任务,或者更快地得到结果。
- 卓越的扩展性:在模拟器中进行的多组扩展性实验表明,随着任务数量的增加,LLMSched的优势愈发明显。例如,在处理400个任务的混合工作负载时,其性能比先进的Decima调度器还要高出75%,展现了其在大规模企业级部署中的巨大潜力。
- 极低的调度开销:更令人印象深刻的是,LLMSched的强大功能并未以高昂的计算开销为代价。其平均每次调度的开销低于3毫秒,远低于其他复杂算法,确保了调度器本身不会成为系统瓶颈,可以进行高效的实时调度。
结论:开启智能调度新纪元
LLMSched的出现,不仅仅是对现有调度算法的一次重大改进,它更为如何处理AGI时代复杂AI系统中的不确定性问题,开辟了一条全新的道路。其核心思想——通过模型重构来固化不确定性,并利用信息论工具来量化和削减不确定性——对于多模块协作的Agent系统、LLM推理集群的资源调度等前沿领域具有极高的参考价值。
这项研究证明,未来的智能系统不仅需要强大的模型,更需要同样智能的“大脑中枢”来进行高效调度和资源管理。随着AI技术向更深、更广的场景渗透,类似LLMSched这样的创新将成为推动整个行业发展的关键引擎。想要获取更多关于AI、大模型的前沿AI资讯和深度解读,欢迎访问AI门户网站
https://aigc.bar
,与我们一同见证人工智能的未来。Loading...