赛题题目：MaaS平台中模型混部的资源编排与性能优化（高校赛题）

赛题说明：

MaaS（Model as a Service，模型即服务）是一种将人工智能模型以云服务或云边协同服务形式对外提供的技术形态，可为开发者和企业提供统一的模型调用、部署与运维能力。随着大语言模型、多模态模型和领域专用模型在云端和边端侧的快速增长，MaaS平台往往需要同时承载多个不同规模、不同负载特征、不同服务等级目标的模型实例。为提高资源利用效率、降低服务成本，多个模型或多类任务共享同一GPU设备或同一GPU资源池的“模型混部”逐渐成为MaaS平台的重要优化方向，同时，多个模型和任务在边缘CPU/GPU/NPU等异构设备上的协同运行，也正在成为模型服务优化的重要场景。然而，模型混部会引入显存竞争、算力干扰、请求排队、服务抖动等问题，在云边协同场景下，还会进一步带来资源受限、带宽波动、跨节点协同开销和异构硬件适配复杂度上升等挑战，导致在线推理服务的时延恶化、吞吐下降甚至SLO违约。已有研究表明，通过面向在线服务SLO的资源回收与快速显存交接机制，可提升推理与训练混部场景下的服务稳定性与资源效率；通过动态伸缩与细粒度资源调度，可提高GPU集群整体利用率；通过面向并发模型服务的GPU pooling与细粒度调度机制，可进一步提升多模型服务场景下的系统吞吐和承载能力。本题旨在探索MaaS平台中模型混部的资源编排与性能优化方案。参赛者可基于vLLM、llama.cpp、SGLang、TensorRT-LLM等开源推理或服务框架，选择一种或多种作为基础平台，面向云端、边缘侧或云边协同的多模型并发服务场景设计恰当的资源编排与性能优化方案。可能的优化方案包括但不限于： 1、多模型混部与GPU池化； 2、请求级、Batch级、阶段级或Token级细粒度调度； 3、面向SLO约束的优先级控制与资源分配； 4、显存管理、模型缓存与快速资源交接； 5、推理与微调/批处理任务混部； 6、长尾模型场景下的弹性部署与动态伸缩。参赛者的最终目标是构建一个支持多模型混部运行的云端、边缘侧或云边协同MaaS原型系统，并在统一测试负载下，相比基线系统在保证服务质量约束的前提下取得明显的综合性能提升：基础目标为取得10%的综合性能提升，挑战目标为取得25%或更大的综合性能提升。

赛题要求：

基于openEuler、openKylin、OpenHarmony等至少一个国内主流开源操作系统开发，鼓励在更多Linux发行版上编译、运行和测试。
技术文档要求：参赛者所交付的软件应有配套的详细设计方案与优化方案。文档应说明系统架构、混部机制、调度策略、实验设置、结果分析及创新点。若有参考文献或互联网资料，应尽数列出。鼓励对资源治理机制、异构资源调度策略、运行时优化方案及系统稳定性设计进行详细分析。
软件基础要求：参赛者所交付的软件需基于至少1种开源模型服务框架或推理引擎进行扩展与优化迭代。
运行环境要求：参赛者所交付的软件需能运行在统一GPU评测环境上，完成模型部署、功能测试与性能测试。评测环境可包括云端GPU环境、边缘异构设备环境，或两者组成的云边协同环境。鼓励适配国产AI加速硬件与国产化算力环境，并验证系统在异构GPU/NPU环境下的兼容性与稳定性。
功能正确要求：参赛者所交付的软件应支持至少2个及以上模型同时部署与并发服务，支持模型加载、卸载、请求处理、监控统计等基本功能，并能在统一测试脚本下稳定运行。鼓励支持多推理引擎协同部署、模型动态迁移、资源弹性调整及运行时状态监控等能力。若有特别情况，应在设计或优化方案中解释相关原因。
性能提升要求：参赛者所交付的软件在统一测试负载下，相比基线系统应至少取得10%的综合性能提升，挑战取得25%或更大的综合性能提升。综合性能可由吞吐、SLO达成率、P95/P99时延、GPU利用率、显存利用率、单位GPU承载模型数等指标综合衡量。
科研内容要求：参赛者所提出的方案应体现一定的科研探索价值，鼓励围绕模型混部中的资源竞争、干扰控制、细粒度调度、请求调度算法、KV Cache管理、显存管理、长尾模型优化、通信并发优化、推理与训练/批处理混部、边缘轻量化推理等方向展开设计，并通过对比实验、消融实验或理论分析验证其有效性。
鼓励结合 Linux 操作系统、容器运行时与集群调度能力，探索面向MaaS 场景的系统优化，包括但不限于：GPU/NPU资源池化与动态配额管理；多模型混部场景下的运行时资源隔离与干扰控制；面向异构 AI 加速硬件的统一资源编排与调度；基于系统运行状态的资源观测、性能分析与自动化调优。
评分标准：
功能完整性（40分）

1.支持多模型部署、卸载、并发服务及监控统计等基本能力（20分）； 2.系统能够稳定对外服务所部署的模型，每缺失1项关键功能或出现1类严重错误，酌情扣分，扣完为止（20分）。

性能优化（50分）：

1.在统一测试负载下取得10%以下综合性能提升（10分）； 2.在统一测试负载下取得10%-25%综合性能提升（30分）； 3.在统一测试负载下取得25%以上综合性能提升（50分）。 4.文档质量（10分）： 5.文档详细清晰，包含安装方式及使用方法（5分）； 6.文档应充分阐述其创新性及实验分析（5分）。

赛题联系人：

胡老师 133303@qq.com

参考资料：

Jiali Wang, Yankui Wang, Mingcong Han, and Rong Chen. Colocating ML Inference and Training with Fast GPU Memory Handover. USENIX ATC 2025. https://www.usenix.org/conference/atc25/presentation/wang-jiali
Wencong Xiao, Shiru Ren, Yong Li, Yang Zhang, Pengyang Hou, Zhi Li, Yihui Feng, Wei Lin, and Yangqing Jia. AntMan: Dynamic Scaling on GPU Clusters for Deep Learning. USENIX OSDI 2020. https://www.usenix.org/conference/osdi20/presentation/xiao
Yuxing Xiang, Xue Li, Kun Qian, Yufan Yang, Diwen Zhu, Wenyuan Yu, Ennan Zhai, Xuanzhe Liu, Xin Jin, and Jingren Zhou. Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market. ACM SOSP 2025. https://dl.acm.org/doi/10.1145/3731569.3764815

赛题题目：MaaS平台中模型混部的资源编排与性能优化（高校赛题）

赛题说明：

赛题要求：

评分标准：

赛题联系人：

参考资料：