赛题题目：面向开源操作系统的的大语言模型PD分离容器化推理系统设计与优化（高校赛题）

赛题说明：

随着大语言模型在线推理服务规模持续扩大，Prefill-Decode（PD）分离已成为提升资源利用率、降低首Token时延的重要架构方向。相比单体式推理服务，PD分离能够将计算密集的Prefill阶段与时延敏感的Decode阶段解耦，从而支持独立扩缩容、异构部署与更精细的资源调度。然而，在Linux容器化环境下，PD分离架构仍面临若干关键系统挑战。首先，任务被抢占、容器异常退出、节点抖动或服务升级时，请求上下文、通信状态与运行时资源难以及时恢复，容易导致服务中断时间过长。其次，PD分离任务在异常中断后，基于NCCL等通信库的多进程协同可能残留僵尸进程、悬挂通信组、显存与句柄泄漏，进一步影响后续任务调度与系统稳定性。最后，容器 PD分离架构下链路更长、组件更多，路由、排队、跨实例通信和资源竞争会显著放大端到端SLO保证的难度，导致TTFT、TPOT、P99时延和请求成功率难以稳定优化。本赛题要求参赛者基于 Linux 系统与开源推理框架，设计并实现面向大语言模型在线服务的PD分离容器化原型系统，围绕中断快速恢复、异常通信资源治理、容器化场景下端到端SLO优化开展系统级创新，并通过可复现的Benchmark与故障注入实验验证效果。

赛题要求：

基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发，鼓励在更多Linux发行版上编译、运行和测试。
PD分离容器化实现：基于Linux系统与开源推理框架，完成Prefill服务、Decode服务、请求路由/调度模块、监控日志模块的容器化实现。系统应支持Prefill与Decode角色独立部署、独立扩缩容以及故障隔离。
开源模型与统一基线：选用开源dense和moe架构大语言模型作为测试对象，优先支持最新模型如Qwen 3.6、deepseekV4等。要求优化前后保持相同硬件环境和软件环境，并提供可复现的Benchmark测试脚本与性能对比报告。
中断快速恢复机制：针对容器被抢占、进程异常退出、节点重启、服务滚动升级等场景，设计并实现快速恢复机制。要求至少覆盖以下一种或多种能力：请求级自动重试与迁移、通信状态重建、会话上下文恢复或快速回放、实例故障后服务能力快速恢复。
僵尸进程与异常通信资源治理：针对PD分离任务在中断、抢占、异常退出场景下产生的大量僵尸进程、悬挂通信组、显存或IPC资源泄漏等问题，设计并实现自动检测、回收和保护机制。重点考察：僵尸NCCL进程/孤儿进程自动清理、通信组异常状态识别与重建、显存或句柄等资源的泄漏控制、多轮异常后系统持续运行稳定性。
端到端SLO优化：面向容器化PD分离架构，围绕TTFT、TPOT、P99时延、吞吐量、SLO违约率、硬件使用率等指标开展系统优化。优化方向包括但不限于：面向请求特征的路由与调度、队列管理与批处理策略、SLO-aware弹性扩缩容、Prefill/Decode负载解耦与资源配额优化、跨容器通信与数据传输路径优化。
分离式推理优化：面向集群的KVCache管理优化。优化方向包括但不限于：KVCache跨界点传输优化、跨节点缓存一致性问题、基于缓存命中率的调度优化、扩缩容产生的缓存丢失与冷启动问题。
评分细则（明确评审角度、标准和分值范围）：
功能完整性（30分）：完整实现PD分离容器化部署、独立扩缩容和路由调度机制；实现中断快速恢复机制，并完成可复现实验验证；实现异常通信资源治理机制，包括僵尸进程清理或通信组恢复。
应用效果（40分）：端到端SLO优化效果显著，包括TTFT、TPOT、P99时延、吞吐量或SLO违约率等指标改善；在抢占/中断场景下，恢复时延短、请求成功率高、服务恢复平稳；多轮异常与负载波动下系统持续稳定运行，资源泄漏可控。
代码规范性（20分）：代码结构清晰，模块边界明确，具备良好的可维护性与可扩展性；符合开源社区规范，提供自动化部署、测试或故障注入脚本。
文档质量（10分）：文档包含技术方案、系统架构、部署说明、Benchmark方案和测试报告；文档逻辑清晰，能够说明中断恢复、异常治理与SLO优化的设计动机和效果分析。
赛题联系人：
杨老师 pfyang@xidian.edu.cn
参考资料：
SGLang Documentation: PD Disaggregation / Router Integration: https://docs.sglang.io/advanced_features/pd_disaggregation.html
vLLM Official Documentation: https://docs.vllm.ai/en/latest/features/disagg_prefill/
Zhong Y, Liu S, Chen J, et al. {DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving[C]//18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024: 193-210. https://www.usenix.org/conference/osdi24/presentation/zhong-yinmin
Wu B, Liu S, Zhong Y, et al. Loongserve: Efficiently serving long-context large language models with elastic sequence parallelism[C]//Proceedings of the ACM SIGOPS 30th Symposium on Operating Systems Principles. 2024: 640-654. https://dl.acm.org/doi/abs/10.1145/3694715.3695948

赛题题目：面向开源操作系统的的大语言模型PD分离容器化推理系统设计与优化（高校赛题）

赛题说明：

赛题要求：

评分细则（明确评审角度、标准和分值范围）：

赛题联系人：

参考资料：