Mooncake Store 是 Mooncake KVCache 池化架构的核心组件,负责 KVCache 对象的元数据管理、分布式存储、副本管理、传输调度和缓存淘汰。本方向鼓励参赛者围绕 Store 的下一代能力建设,提升 Mooncake Store 在高并发、高命中率、多租户、多副本、SSD Offload 和高可用部署下的能力。
参赛者可以选择 Mooncake Store 内核能力优化,也可以选择 SGLang HiCache + Mooncake Store 的联合优化。
4.2 可选任务
基础任务:
优化 Mooncake Store 的 put/get/remove/batch 接口性能,降低延迟并提升吞吐。
Mooncake KVCache 存储设计和性能优化赛题说明
一、赛题背景
随着大模型服务进入长上下文、多轮对话和高并发部署场景,推理系统面临两类核心瓶颈:一是 Prefill 阶段带来的高计算开销,二是 KVCache 在多实例、多请求之间难以复用造成的冗余存储和重复计算。特别是在长上下文和高并发场景下,KVCache 的生成、传输、存储、查询、淘汰和恢复会直接影响 TTFT、吞吐量、P99 延迟和整体服务成本。
Mooncake 是以 KVCache 为中心的大模型服务基础设施,采用 Prefill-Decode Disaggregation、KVCache 池化共享和高性能数据传输设计,将计算、存储和网络能力解耦。Mooncake 目前已开源 Transfer Engine、Mooncake Store、P2P Store 等核心组件,并与 vLLM、SGLang、LMDeploy、TensorRT-LLM、Dynamo、RTP 等推理系统形成生态协作。
本赛题希望参赛者围绕 Mooncake 的现有架构和社区演进需求,选择框架集成、Mooncake Store 演进、Transfer Engine 传输优化三个方向之一开展贡献。参赛作品应尽量以可合入社区的 Pull Request、可复现实验和清晰文档为目标,避免只停留在概念设计。
二、赛题目标
参赛者可从以下三个赛题方向中选择一个或多个方向完成贡献。每个方向均设置基础任务和挑战任务,鼓励队伍结合自身能力选择合适的切入点。
最终作品应满足以下总体目标:
三、赛题一:Mooncake 与主流推理框架的深度集成
3.1 赛题描述
Mooncake 已经在 vLLM、SGLang 等推理系统中支持 PD 分离、KVCache 传输和分布式缓存能力。本方向鼓励参赛者将 Mooncake 的能力扩展到更多推理框架中,提升 Mooncake 在大模型推理生态中的通用性。
参赛者可以选择 TensorRT-LLM、Ollama、Dynamo、RTP、LMDeploy 或其他开源推理框架作为目标系统,完成 Mooncake Transfer Engine 或 Mooncake Store 的接入、优化和验证。
3.2 可选任务
基础任务:
进阶任务:
3.3 技术难点
3.4 交付要求
四、赛题二:Mooncake Store 性能、高可用与 SGLang HiCache 优化
4.1 赛题描述
Mooncake Store 是 Mooncake KVCache 池化架构的核心组件,负责 KVCache 对象的元数据管理、分布式存储、副本管理、传输调度和缓存淘汰。本方向鼓励参赛者围绕 Store 的下一代能力建设,提升 Mooncake Store 在高并发、高命中率、多租户、多副本、SSD Offload 和高可用部署下的能力。
参赛者可以选择 Mooncake Store 内核能力优化,也可以选择 SGLang HiCache + Mooncake Store 的联合优化。
4.2 可选任务
基础任务:
进阶任务:
4.3 技术难点
4.4 交付要求
五、赛题三:Mooncake Transfer Engine 异构互联与传输性能优化
5.1 赛题描述
Mooncake Transfer Engine 是 Mooncake 的高性能数据传输核心,面向 DRAM、VRAM、NVMe、远端内存和多种网络链路提供统一数据传输接口。本方向鼓励参赛者围绕下一代传输引擎能力,优化多传输路径、传输队列、QoS、tracing 和自愈能力。
参赛者可以选择 NVLink、UB、UALink、CXL、RDMA、TCP、SHM 等任一具体传输或硬件路径开展工作。
5.2 可选任务
基础任务:
进阶任务:
5.3 技术难点
5.4 交付要求
六、赛题四:Agent 与多模态推理场景下的 KVCache 分离与协同调度
6.1 赛题描述
随着 Agent 工作流(多轮推理、A2A 状态共享)和多模态大模型(Vision Encoder + LLM Prefill + Decode 三阶段流水线)的兴起,传统单一 PD 分离架构已不能满足需求。本方向鼓励参赛者将 Mooncake 的 KVCache 池化与高性能传输能力扩展到 EPD(Encoder-Prefill-Decode)三阶段分离和 Agent 状态协同场景,探索面向下一代 AI 工作负载的分布式缓存架构。
参赛者可以选择 SGLang、vLLM 或其他支持多模态推理的框架作为集成目标,围绕 Agent 状态克隆、EPD 流水线优化或 Omni 多模态管线开展工作。
6.2 可选任务
基础任务:
进阶任务:
6.3 技术难点
6.4 交付要求
七、赛题五:KVCache 动态迁移与弹性自愈
7.1 赛题描述
在云原生 Spot Instance 场景和大规模集群弹性伸缩中,KVCache 状态需要在节点间无损迁移以避免请求中断;当 GPU 节点故障时,需要在秒级内恢复服务。本方向鼓励参赛者为 Mooncake 实现 KVCache 热迁移、智能弹性伸缩和快速故障恢复能力,推动 Mooncake 走向生产级高可用部署。
参赛者可以选择迁移协议设计、自动扩缩容策略或故障恢复机制中的一个或多个子方向开展工作。
7.2 可选任务
基础任务:
进阶任务:
7.3 技术难点
7.4 交付要求
八、赛题六:Mooncake PG 分布式通信与 MoE 高吞吐内核优化
8.1 赛题描述
Mooncake PG(Process Group)旨在成为面向推理场景的轻量级集合通信库,替代 NCCL 提供更灵活的容错和初始化能力;Mooncake EP(Expert Parallelism)则为 MoE 模型提供高吞吐的 All-to-All 通信内核。本方向鼓励参赛者围绕分布式通信算法、高性能 GPU kernel、容错机制和异构硬件适配开展工作,推动 Mooncake 在分布式推理通信层的能力演进。
参赛者可以选择集合通信算法实现、MoE kernel 优化、容错后端或国产硬件适配中的一个或多个子方向。
8.2 可选任务
基础任务:
torch.distributed接口下使用。进阶任务:
8.3 技术难点
8.4 交付要求
九、统一技术要求
9.1 代码要求
9.2 测试要求
9.3 文档要求
参赛队伍应至少提交以下文档:
README.md:作品概述、运行方式、依赖环境和结果摘要。DESIGN.md:设计方案、接口说明、数据流和关键权衡。EVALUATION.md:实验环境、测试方法、baseline、指标和结果分析。十、评分标准
加分项:
扣分项:
八、作品提交要求
参赛作品建议以 Pull Request 或可公开访问的代码仓库形式提交,包含以下内容:
九、参赛建议
为提高作品完成度,建议参赛队伍按以下路径推进: