Update README.md
MaaS(Model as a Service,模型即服务)是一种将人工智能模型以云服务或云边协同服务形式对外提供的技术形态,可为开发者和企业提供统一的模型调用、部署与运维能力。随着大语言模型、多模态模型和领域专用模型在云端和边端侧的快速增长,MaaS平台往往需要同时承载多个不同规模、不同负载特征、不同服务等级目标的模型实例。为提高资源利用效率、降低服务成本,多个模型或多类任务共享同一GPU设备或同一GPU资源池的“模型混部”逐渐成为MaaS平台的重要优化方向,同时,多个模型和任务在边缘CPU/GPU/NPU等异构设备上的协同运行,也正在成为模型服务优化的重要场景。 然而,模型混部会引入显存竞争、算力干扰、请求排队、服务抖动等问题,在云边协同场景下,还会进一步带来资源受限、带宽波动、跨节点协同开销和异构硬件适配复杂度上升等挑战,导致在线推理服务的时延恶化、吞吐下降甚至SLO违约。已有研究表明,通过面向在线服务SLO的资源回收与快速显存交接机制,可提升推理与训练混部场景下的服务稳定性与资源效率;通过动态伸缩与细粒度资源调度,可提高GPU集群整体利用率;通过面向并发模型服务的GPU pooling与细粒度调度机制,可进一步提升多模型服务场景下的系统吞吐和承载能力。 本题旨在探索MaaS平台中模型混部的资源编排与性能优化方案。参赛者可基于vLLM、llama.cpp、SGLang、TensorRT-LLM等开源推理或服务框架,选择一种或多种作为基础平台,面向云端、边缘侧或云边协同的多模型并发服务场景设计恰当的资源编排与性能优化方案。可能的优化方案包括但不限于: 1、多模型混部与GPU池化; 2、请求级、Batch级、阶段级或Token级细粒度调度; 3、面向SLO约束的优先级控制与资源分配; 4、显存管理、模型缓存与快速资源交接; 5、推理与微调/批处理任务混部; 6、长尾模型场景下的弹性部署与动态伸缩。 参赛者的最终目标是构建一个支持多模型混部运行的云端、边缘侧或云边协同MaaS原型系统,并在统一测试负载下,相比基线系统在保证服务质量约束的前提下取得明显的综合性能提升:基础目标为取得10%的综合性能提升,挑战目标为取得25%或更大的综合性能提升。
1.支持多模型部署、卸载、并发服务及监控统计等基本能力(20分); 2.系统能够稳定对外服务所部署的模型,每缺失1项关键功能或出现1类严重错误,酌情扣分,扣完为止(20分)。
1.在统一测试负载下取得10%以下综合性能提升(10分); 2.在统一测试负载下取得10%-25%综合性能提升(30分); 3.在统一测试负载下取得25%以上综合性能提升(50分)。 4.文档质量(10分): 5.文档详细清晰,包含安装方式及使用方法(5分); 6.文档应充分阐述其创新性及实验分析(5分)。
胡老师 133303@qq.com
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802047560号
赛题题目:MaaS平台中模型混部的资源编排与性能优化(高校赛题)
赛题说明:
MaaS(Model as a Service,模型即服务)是一种将人工智能模型以云服务或云边协同服务形式对外提供的技术形态,可为开发者和企业提供统一的模型调用、部署与运维能力。随着大语言模型、多模态模型和领域专用模型在云端和边端侧的快速增长,MaaS平台往往需要同时承载多个不同规模、不同负载特征、不同服务等级目标的模型实例。为提高资源利用效率、降低服务成本,多个模型或多类任务共享同一GPU设备或同一GPU资源池的“模型混部”逐渐成为MaaS平台的重要优化方向,同时,多个模型和任务在边缘CPU/GPU/NPU等异构设备上的协同运行,也正在成为模型服务优化的重要场景。 然而,模型混部会引入显存竞争、算力干扰、请求排队、服务抖动等问题,在云边协同场景下,还会进一步带来资源受限、带宽波动、跨节点协同开销和异构硬件适配复杂度上升等挑战,导致在线推理服务的时延恶化、吞吐下降甚至SLO违约。已有研究表明,通过面向在线服务SLO的资源回收与快速显存交接机制,可提升推理与训练混部场景下的服务稳定性与资源效率;通过动态伸缩与细粒度资源调度,可提高GPU集群整体利用率;通过面向并发模型服务的GPU pooling与细粒度调度机制,可进一步提升多模型服务场景下的系统吞吐和承载能力。 本题旨在探索MaaS平台中模型混部的资源编排与性能优化方案。参赛者可基于vLLM、llama.cpp、SGLang、TensorRT-LLM等开源推理或服务框架,选择一种或多种作为基础平台,面向云端、边缘侧或云边协同的多模型并发服务场景设计恰当的资源编排与性能优化方案。可能的优化方案包括但不限于: 1、多模型混部与GPU池化; 2、请求级、Batch级、阶段级或Token级细粒度调度; 3、面向SLO约束的优先级控制与资源分配; 4、显存管理、模型缓存与快速资源交接; 5、推理与微调/批处理任务混部; 6、长尾模型场景下的弹性部署与动态伸缩。 参赛者的最终目标是构建一个支持多模型混部运行的云端、边缘侧或云边协同MaaS原型系统,并在统一测试负载下,相比基线系统在保证服务质量约束的前提下取得明显的综合性能提升:基础目标为取得10%的综合性能提升,挑战目标为取得25%或更大的综合性能提升。
赛题要求:
评分标准:
1.支持多模型部署、卸载、并发服务及监控统计等基本能力(20分); 2.系统能够稳定对外服务所部署的模型,每缺失1项关键功能或出现1类严重错误,酌情扣分,扣完为止(20分)。
1.在统一测试负载下取得10%以下综合性能提升(10分); 2.在统一测试负载下取得10%-25%综合性能提升(30分); 3.在统一测试负载下取得25%以上综合性能提升(50分)。 4.文档质量(10分): 5.文档详细清晰,包含安装方式及使用方法(5分); 6.文档应充分阐述其创新性及实验分析(5分)。
赛题联系人:
胡老师 133303@qq.com
参考资料: