目录
目录README.md

赛题题目:面向大语言模型高效推理框架的系统级优化与实现

赛题说明:

随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性,现有系统仍需围绕这些痛点,开展更具针对性的优化举措。本赛题要求基于开源技术栈,构建具备端到端优化能力的大模型推理框架。

赛题要求:

完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求,但要求优化前后保持相同硬件配置。使用开源大模型(如MiniCPM、Qwen等)作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度,优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向:

  • 推测解码技术:采用小型draft model生成候选token,通过target LLM并行验证加速解码。
  • 注意力计算加速技术:优化注意力机制的计算效率,通过算法改进或数据布局优化提升推理速度。
  • 内存管理技术:实现显存的智能分配与回收机制,提升资源受限环境下的内存利用率。

评分标准:

功能完整性(30%):

  • 完整实现至少一个推理框架的适配与优化(60分);
  • 支持多模型部署能力(40分)。

应用效果(40%):

  • 端到端推理延迟降低幅度(40分);
  • 能够在不同模型或框架的适配(40分);
  • 切实解决边端侧场景的典型问题(20分)。

代码规范性(20%):

  • 代码结构清晰、符合开源规范(80分);
  • 测试覆盖完备(20分)。

文档质量(10%):

  • 包含技术方案、部署指南、测试报告(50分);
  • 文档逻辑清晰、格式规范(50分)。

赛题联系人:

张建锋 zhangjianfeng@nudt.edu.cn

参考资料:

[1] https://docs.vllm.ai/en/stable/index.html [2] https://github.com/vllm-project/vllm [3] https://github.com/ggerganov/llama.cpp [4] https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B

参赛资源支持:无

关于
27.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号