赛题题目:面向大语言模型高效推理框架的系统级优化与实现
赛题说明:
随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性,现有系统仍需围绕这些痛点,开展更具针对性的优化举措。本赛题要求基于开源技术栈,构建具备端到端优化能力的大模型推理框架。
赛题要求:
完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求,但要求优化前后保持相同硬件配置。使用开源大模型(如MiniCPM、Qwen等)作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度,优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向:
- 推测解码技术:采用小型draft model生成候选token,通过target LLM并行验证加速解码。
- 注意力计算加速技术:优化注意力机制的计算效率,通过算法改进或数据布局优化提升推理速度。
- 内存管理技术:实现显存的智能分配与回收机制,提升资源受限环境下的内存利用率。
评分标准:
功能完整性(30%):
- 完整实现至少一个推理框架的适配与优化(60分);
- 支持多模型部署能力(40分)。
应用效果(40%):
- 端到端推理延迟降低幅度(40分);
- 能够在不同模型或框架的适配(40分);
- 切实解决边端侧场景的典型问题(20分)。
代码规范性(20%):
- 代码结构清晰、符合开源规范(80分);
- 测试覆盖完备(20分)。
文档质量(10%):
- 包含技术方案、部署指南、测试报告(50分);
- 文档逻辑清晰、格式规范(50分)。
赛题联系人:
张建锋 zhangjianfeng@nudt.edu.cn
参考资料:
[1] https://docs.vllm.ai/en/stable/index.html
[2] https://github.com/vllm-project/vllm
[3] https://github.com/ggerganov/llama.cpp
[4] https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B
参赛资源支持:无
赛题题目:面向大语言模型高效推理框架的系统级优化与实现
赛题说明:
随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性,现有系统仍需围绕这些痛点,开展更具针对性的优化举措。本赛题要求基于开源技术栈,构建具备端到端优化能力的大模型推理框架。
赛题要求:
完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求,但要求优化前后保持相同硬件配置。使用开源大模型(如MiniCPM、Qwen等)作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度,优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向:
评分标准:
功能完整性(30%):
应用效果(40%):
代码规范性(20%):
文档质量(10%):
赛题联系人:
张建锋 zhangjianfeng@nudt.edu.cn
参考资料:
[1] https://docs.vllm.ai/en/stable/index.html [2] https://github.com/vllm-project/vllm [3] https://github.com/ggerganov/llama.cpp [4] https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B
参赛资源支持:无