赛题题目：面向大语言模型高效推理框架的系统级优化与实现

赛题说明：

随着大语言模型在边端侧的应用不断拓展，推理服务的重要性日益凸显，其效率直接关乎用户体验，因此，迫切需要对边端侧大模型的推理效率进行优化。目前，已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如，vLLM运用PagedAttention技术，显著提升了显存利用率；llama.cpp借助量化技术、硬件加速及跨平台兼容性，有效降低了大模型的部署门槛。然而，鉴于边端侧环境普遍存在端到端延迟敏感、资源受限等特性，现有系统仍需围绕这些痛点，开展更具针对性的优化举措。本赛题要求基于开源技术栈，构建具备端到端优化能力的大模型推理框架。

赛题要求：

完成面向大语言模型推理框架的系统级端到端推理效率优化。可选vLLM、llama.cpp等主流推理框架。硬件不做固定要求，但要求优化前后保持相同硬件配置。使用开源大模型（如MiniCPM、Qwen等）作为测试基准并提供可复现的Benchmark测试方案及性能对比报告。同时要求不损失模型推理精度，优化前后软件环境也需保持一致。具体优化推荐但不限于以下方向：