Update README.md
随着基于大语言模型的智能体系统不断发展,其推理范式已由传统的单轮生成扩展为涵盖规划、执行与反思的长生命周期复杂过程。在这一过程中,智能体需要进行多轮动态交互,并频繁调用工具与外部环境,导致推理过程中的上下文持续增长与反复重构。相较于传统推理框架(如 vLLM)主要面向线性序列生成的场景,智能体推理在内存使用上呈现出显著不同的特征,包括 KV Cache 持续累积、上下文内容高度冗余、推理路径可能出现分支以及工具调用带来的大规模中间数据等问题。这些特性使得支撑智能体推理的内存管理系统面临内存生命周期长、结构动态和复用性要求高等问题和需求。在资源受限或多任务并发环境下,低效的内存管理策略将显著增加显存占用,导致推理延迟上升甚至任务失败。本赛题要求参赛者基于开源技术栈,实现一个面向智能体推理过程的内存管理系统,在保证推理效果的前提下,通过对 KV Cache、上下文结构及显存分配机制的系统性优化,有效降低内存占用并提升整体推理效率。
完成面向智能体的内存管理优化设计与实现,基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发,鼓励在更多Linux发行版上编译、运行和测试。参赛者可以选择在现有推理框架(如 vLLM 或 llama.cpp)基础上进行扩展,实现对典型智能体工作流(如多轮对话、工具调用或多阶段决策过程)的支持。在实现过程中,需要保证优化前后使用相同的硬件配置,并基于开源大模型(如 Qwen、MiniCPM 等)构建可复现的 Benchmark 测试方案,对优化效果进行系统评估。具体优化推荐但不限于以下方向:
功能完整性(30%):
应用效果(40%):
代码规范性(20%):
文档质量(10%):
张老师 jfzhang@nudt.edu.cn
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802047560号
赛题题目:面向智能体的内存管理系统设计与实现(高校赛题)
赛题说明:
随着基于大语言模型的智能体系统不断发展,其推理范式已由传统的单轮生成扩展为涵盖规划、执行与反思的长生命周期复杂过程。在这一过程中,智能体需要进行多轮动态交互,并频繁调用工具与外部环境,导致推理过程中的上下文持续增长与反复重构。相较于传统推理框架(如 vLLM)主要面向线性序列生成的场景,智能体推理在内存使用上呈现出显著不同的特征,包括 KV Cache 持续累积、上下文内容高度冗余、推理路径可能出现分支以及工具调用带来的大规模中间数据等问题。这些特性使得支撑智能体推理的内存管理系统面临内存生命周期长、结构动态和复用性要求高等问题和需求。在资源受限或多任务并发环境下,低效的内存管理策略将显著增加显存占用,导致推理延迟上升甚至任务失败。本赛题要求参赛者基于开源技术栈,实现一个面向智能体推理过程的内存管理系统,在保证推理效果的前提下,通过对 KV Cache、上下文结构及显存分配机制的系统性优化,有效降低内存占用并提升整体推理效率。
赛题要求:
完成面向智能体的内存管理优化设计与实现,基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发,鼓励在更多Linux发行版上编译、运行和测试。参赛者可以选择在现有推理框架(如 vLLM 或 llama.cpp)基础上进行扩展,实现对典型智能体工作流(如多轮对话、工具调用或多阶段决策过程)的支持。在实现过程中,需要保证优化前后使用相同的硬件配置,并基于开源大模型(如 Qwen、MiniCPM 等)构建可复现的 Benchmark 测试方案,对优化效果进行系统评估。具体优化推荐但不限于以下方向:
评分细则(明确评审角度、标准和分值范围):
功能完整性(30%):
应用效果(40%):
代码规范性(20%):
文档质量(10%):
赛题联系人:
张老师 jfzhang@nudt.edu.cn
参考资料: