[meta] validate MetaIndexer metadata persistence & recovery (#98) [meta] introducing MetaDummyBackend for testing purpose MetaDummyBackend is a meta storage backend implementation with in-memory data store, and optional local filesystem persistence capability, whose sole purpose is for testing & validating. WARNING: THIS IS A TEST FACILITY WITHOUT ANY FUNCTIONALITY COMPLETENESS WARRANTY; DO NOT EVER USE IT UNDER ANY PRODUCTION CIRCUMSTANCE. [meta] [test] enable & update MetaIndexer persistence & recovery test [proto] add the missing persist_metadata_interval_time_ms field MetaIndexer’s metadata persistence interval can be adjusted via API calls [test] add reclaiming test cases validate MetaIndexer metadata persistence & recovery behavior #77 validate MetaIndexer metadata persistence & recovery backward compatibility: v0 and v1 behavior validation #103 switch meta storage backend: local -> dummy
[meta] validate MetaIndexer metadata persistence & recovery (#98)
MetaDummyBackend is a meta storage backend implementation with in-memory data store, and optional local filesystem persistence capability, whose sole purpose is for testing & validating.
WARNING: THIS IS A TEST FACILITY WITHOUT ANY FUNCTIONALITY COMPLETENESS WARRANTY; DO NOT EVER USE IT UNDER ANY PRODUCTION CIRCUMSTANCE.
[meta] [test] enable & update MetaIndexer persistence & recovery test
[proto] add the missing persist_metadata_interval_time_ms field
[test] add reclaiming test cases
|English Version|
Tair KVCache 是阿里云为大语言模型(LLM)推理场景设计的高性能 KVCache 缓存系统,通过分布式内存池化、动态多级缓存等技术,实现加速提效的同时降低资源成本。 目前,其中的全局 KVCache 管理系统 Tair KVCache Manager 和 LLM 推理仿真系统 Tair KVCache HiSim 已经开源。
Tair KVCache Manager 是 Tair KVCache 的核心组件之一,旨在为大语言模型(LLM)推理场景提供统一的KVCache元数据管理服务。
Tair KVCache Manager主要由以下组件构成:
如果想要了解更多Manager详细设计,可参考:阿里云Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
Tair KVCache Manager Client/Connector
使用统一的传输库支持多推理引擎和存储后端的KVCache传输。当前支持vLLM、SGLang、RTP-LLM、TRT-LLM等引擎。
HiSim 是一个高性能的基于CPU的LLM推理仿真系统。它能够在不依赖实际GPU资源的情况下,通过回放真实推理负载Trace,快速、低成本、高保真地预测不同模型、目标硬件、推理引擎和配置下的关键性能指标(如TTFT、TPOT、吞吐量等)。当前支持SGLang v0.5.6.post2,在H20 GPU上运行Qwen3 Dense系列模型,预测误差低于5%。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
Tair KVCache
|English Version|
Tair KVCache 是阿里云为大语言模型(LLM)推理场景设计的高性能 KVCache 缓存系统,通过分布式内存池化、动态多级缓存等技术,实现加速提效的同时降低资源成本。 目前,其中的全局 KVCache 管理系统 Tair KVCache Manager 和 LLM 推理仿真系统 Tair KVCache HiSim 已经开源。
Tair KVCache Manager
Tair KVCache Manager 是 Tair KVCache 的核心组件之一,旨在为大语言模型(LLM)推理场景提供统一的KVCache元数据管理服务。
系统架构
Tair KVCache Manager主要由以下组件构成:
如果想要了解更多Manager详细设计,可参考:阿里云Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
Tair KVCache Manager Client/Connector
使用统一的传输库支持多推理引擎和存储后端的KVCache传输。当前支持vLLM、SGLang、RTP-LLM、TRT-LLM等引擎。
Tair KVCache HiSim
HiSim 是一个高性能的基于CPU的LLM推理仿真系统。它能够在不依赖实际GPU资源的情况下,通过回放真实推理负载Trace,快速、低成本、高保真地预测不同模型、目标硬件、推理引擎和配置下的关键性能指标(如TTFT、TPOT、吞吐量等)。当前支持SGLang v0.5.6.post2,在H20 GPU上运行Qwen3 Dense系列模型,预测误差低于5%。
联系我们