目录

赛题题目:面向开源操作系统的的大语言模型PD分离容器化推理系统设计与优化(高校赛题)

赛题说明:

随着大语言模型在线推理服务规模持续扩大,Prefill-Decode(PD)分离已成为提升资源利用率、降低首Token时延的重要架构方向。相比单体式推理服务,PD分离能够将计算密集的Prefill阶段与时延敏感的Decode阶段解耦,从而支持独立扩缩容、异构部署与更精细的资源调度。然而,在Linux容器化环境下,PD分离架构仍面临若干关键系统挑战。首先,任务被抢占、容器异常退出、节点抖动或服务升级时,请求上下文、通信状态与运行时资源难以及时恢复,容易导致服务中断时间过长。其次,PD分离任务在异常中断后,基于NCCL等通信库的多进程协同可能残留僵尸进程、悬挂通信组、显存与句柄泄漏,进一步影响后续任务调度与系统稳定性。最后,容器 PD分离架构下链路更长、组件更多,路由、排队、跨实例通信和资源竞争会显著放大端到端SLO保证的难度,导致TTFT、TPOT、P99时延和请求成功率难以稳定优化。 本赛题要求参赛者基于 Linux 系统与开源推理框架,设计并实现面向大语言模型在线服务的PD分离容器化原型系统,围绕中断快速恢复、异常通信资源治理、容器化场景下端到端SLO优化开展系统级创新,并通过可复现的Benchmark与故障注入实验验证效果。

赛题要求:

  • 基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发,鼓励在更多Linux发行版上编译、运行和测试。
  • PD分离容器化实现: 基于Linux系统与开源推理框架,完成Prefill服务、Decode服务、请求路由/调度模块、监控日志模块的容器化实现。系统应支持Prefill与Decode角色独立部署、独立扩缩容以及故障隔离。
  • 开源模型与统一基线: 选用开源dense和moe架构大语言模型作为测试对象,优先支持最新模型如Qwen 3.6、deepseekV4等。要求优化前后保持相同硬件环境和软件环境,并提供可复现的Benchmark测试脚本与性能对比报告。
  • 中断快速恢复机制: 针对容器被抢占、进程异常退出、节点重启、服务滚动升级等场景,设计并实现快速恢复机制。要求至少覆盖以下一种或多种能力:请求级自动重试与迁移、通信状态重建、会话上下文恢复或快速回放、实例故障后服务能力快速恢复。
  • 僵尸进程与异常通信资源治理: 针对PD分离任务在中断、抢占、异常退出场景下产生的大量僵尸进程、悬挂通信组、显存或IPC资源泄漏等问题,设计并实现自动检测、回收和保护机制。重点考察:僵尸NCCL进程/孤儿进程自动清理、通信组异常状态识别与重建、显存或句柄等资源的泄漏控制、多轮异常后系统持续运行稳定性。
  • 端到端SLO优化: 面向容器化PD分离架构,围绕TTFT、TPOT、P99时延、吞吐量、SLO违约率、硬件使用率等指标开展系统优化。优化方向包括但不限于:面向请求特征的路由与调度、队列管理与批处理策略、SLO-aware弹性扩缩容、Prefill/Decode负载解耦与资源配额优化、跨容器通信与数据传输路径优化。
  • 分离式推理优化:面向集群的KVCache管理优化。优化方向包括但不限于:KVCache跨界点传输优化、跨节点缓存一致性问题、基于缓存命中率的调度优化、扩缩容产生的缓存丢失与冷启动问题。

    评分细则(明确评审角度、标准和分值范围):

  • 功能完整性(30分):完整实现PD分离容器化部署、独立扩缩容和路由调度机制;实现中断快速恢复机制,并完成可复现实验验证;实现异常通信资源治理机制,包括僵尸进程清理或通信组恢复。
  • 应用效果(40分): 端到端SLO优化效果显著,包括TTFT、TPOT、P99时延、吞吐量或SLO违约率等指标改善;在抢占/中断场景下,恢复时延短、请求成功率高、服务恢复平稳;多轮异常与负载波动下系统持续稳定运行,资源泄漏可控。
  • 代码规范性(20分): 代码结构清晰,模块边界明确,具备良好的可维护性与可扩展性;符合开源社区规范,提供自动化部署、测试或故障注入脚本。
  • 文档质量(10分): 文档包含技术方案、系统架构、部署说明、Benchmark方案和测试报告;文档逻辑清晰,能够说明中断恢复、异常治理与SLO优化的设计动机和效果分析。

    赛题联系人:

    杨老师 pfyang@xidian.edu.cn

    参考资料:

  • SGLang Documentation: PD Disaggregation / Router Integration: https://docs.sglang.io/advanced_features/pd_disaggregation.html
  • vLLM Official Documentation: https://docs.vllm.ai/en/latest/features/disagg_prefill/
  • Zhong Y, Liu S, Chen J, et al. {DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving[C]//18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024: 193-210. https://www.usenix.org/conference/osdi24/presentation/zhong-yinmin
  • Wu B, Liu S, Zhong Y, et al. Loongserve: Efficiently serving long-context large language models with elastic sequence parallelism[C]//Proceedings of the ACM SIGOPS 30th Symposium on Operating Systems Principles. 2024: 640-654. https://dl.acm.org/doi/abs/10.1145/3694715.3695948
关于
28.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802047560号