随着大语言模型在线推理服务规模持续扩大,Prefill-Decode(PD)分离已成为提升资源利用率、降低首Token时延的重要架构方向。相比单体式推理服务,PD分离能够将计算密集的Prefill阶段与时延敏感的Decode阶段解耦,从而支持独立扩缩容、异构部署与更精细的资源调度。然而,在Linux容器化环境下,PD分离架构仍面临若干关键系统挑战。首先,任务被抢占、容器异常退出、节点抖动或服务升级时,请求上下文、通信状态与运行时资源难以及时恢复,容易导致服务中断时间过长。其次,PD分离任务在异常中断后,基于NCCL等通信库的多进程协同可能残留僵尸进程、悬挂通信组、显存与句柄泄漏,进一步影响后续任务调度与系统稳定性。最后,容器 PD分离架构下链路更长、组件更多,路由、排队、跨实例通信和资源竞争会显著放大端到端SLO保证的难度,导致TTFT、TPOT、P99时延和请求成功率难以稳定优化。
本赛题要求参赛者基于 Linux 系统与开源推理框架,设计并实现面向大语言模型在线服务的PD分离容器化原型系统,围绕中断快速恢复、异常通信资源治理、容器化场景下端到端SLO优化开展系统级创新,并通过可复现的Benchmark与故障注入实验验证效果。
Zhong Y, Liu S, Chen J, et al. {DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving[C]//18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024: 193-210. https://www.usenix.org/conference/osdi24/presentation/zhong-yinmin
Wu B, Liu S, Zhong Y, et al. Loongserve: Efficiently serving long-context large language models with elastic sequence parallelism[C]//Proceedings of the ACM SIGOPS 30th Symposium on Operating Systems Principles. 2024: 640-654. https://dl.acm.org/doi/abs/10.1145/3694715.3695948
赛题题目:面向开源操作系统的的大语言模型PD分离容器化推理系统设计与优化(高校赛题)
赛题说明:
随着大语言模型在线推理服务规模持续扩大,Prefill-Decode(PD)分离已成为提升资源利用率、降低首Token时延的重要架构方向。相比单体式推理服务,PD分离能够将计算密集的Prefill阶段与时延敏感的Decode阶段解耦,从而支持独立扩缩容、异构部署与更精细的资源调度。然而,在Linux容器化环境下,PD分离架构仍面临若干关键系统挑战。首先,任务被抢占、容器异常退出、节点抖动或服务升级时,请求上下文、通信状态与运行时资源难以及时恢复,容易导致服务中断时间过长。其次,PD分离任务在异常中断后,基于NCCL等通信库的多进程协同可能残留僵尸进程、悬挂通信组、显存与句柄泄漏,进一步影响后续任务调度与系统稳定性。最后,容器 PD分离架构下链路更长、组件更多,路由、排队、跨实例通信和资源竞争会显著放大端到端SLO保证的难度,导致TTFT、TPOT、P99时延和请求成功率难以稳定优化。 本赛题要求参赛者基于 Linux 系统与开源推理框架,设计并实现面向大语言模型在线服务的PD分离容器化原型系统,围绕中断快速恢复、异常通信资源治理、容器化场景下端到端SLO优化开展系统级创新,并通过可复现的Benchmark与故障注入实验验证效果。
赛题要求:
评分细则(明确评审角度、标准和分值范围):
赛题联系人:
杨老师 pfyang@xidian.edu.cn参考资料: