Update README.md
随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性,现有系统仍需围绕这些痛点,开展更具针对性的优化举措。本赛题要求基于开源技术栈,构建具备端到端优化能力的大模型推理框架。
完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求,但要求优化前后保持相同硬件配置。使用开源大模型(如MiniCPM、Qwen等)作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度,优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向:
张建锋 zhangjianfeng@nudt.edu.cn
[1] https://docs.vllm.ai/en/stable/index.html [2] https://github.com/vllm-project/vllm [3] https://github.com/ggerganov/llama.cpp [4] https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
赛题题目:面向大语言模型高效推理框架的系统级优化与实现
赛题说明:
随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性,现有系统仍需围绕这些痛点,开展更具针对性的优化举措。本赛题要求基于开源技术栈,构建具备端到端优化能力的大模型推理框架。
赛题要求:
完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求,但要求优化前后保持相同硬件配置。使用开源大模型(如MiniCPM、Qwen等)作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度,优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向:
评分标准:
功能完整性(30%):
应用效果(40%):
代码规范性(20%):
文档质量(10%):
赛题联系人:
张建锋 zhangjianfeng@nudt.edu.cn
参考资料:
[1] https://docs.vllm.ai/en/stable/index.html [2] https://github.com/vllm-project/vllm [3] https://github.com/ggerganov/llama.cpp [4] https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B
参赛资源支持:无