update project files
本作品旨在解决边端设备运行大语言模型(LLM)推理过程中的高延迟与低资源利用率问题。针对边端环境在计算资源有限、显存紧张以及端到端延迟敏感等特性,我们提出了一种面向大语言模型的高效推理框架,通过集成 PipeDec 动态推测解码技术,有效提升模型在边端侧的推理速度与响应性能。该框架适用于需要低延迟实时交互的场景,如智能助手、边缘计算终端、移动设备及物联网系统,满足在有限硬件资源下运行高质量语言模型的需求。该框架在保持模型原始精度和软件环境一致的前提下,通过两级 KV-Cache 和轻量化通信优化显著提升了边端推理性能。相比现有框架(如 vLLM、llama),本方案在资源有限的智能终端、车载系统和物联网设备等场景具有更高适配性,为开源大模型(如 MiniCPM、Qwen)在边端落地提供了高性价比解决方案。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
参赛项目:SpcePipe面向大语言模型高效推理框架
队伍:大哥说的都对 成员:尹浩飞、靳浩琳、陆荣周 指导老师:肖梦白
本作品旨在解决边端设备运行大语言模型(LLM)推理过程中的高延迟与低资源利用率问题。针对边端环境在计算资源有限、显存紧张以及端到端延迟敏感等特性,我们提出了一种面向大语言模型的高效推理框架,通过集成 PipeDec 动态推测解码技术,有效提升模型在边端侧的推理速度与响应性能。该框架适用于需要低延迟实时交互的场景,如智能助手、边缘计算终端、移动设备及物联网系统,满足在有限硬件资源下运行高质量语言模型的需求。该框架在保持模型原始精度和软件环境一致的前提下,通过两级 KV-Cache 和轻量化通信优化显著提升了边端推理性能。相比现有框架(如 vLLM、llama),本方案在资源有限的智能终端、车载系统和物联网设备等场景具有更高适配性,为开源大模型(如 MiniCPM、Qwen)在边端落地提供了高性价比解决方案。