update ppt
🏆 竞赛作品:大语言模型推理框架系统级端到端优化解决方案 创新性地提出单模型稀疏自推测解码技术,结合vAttention虚拟内存管理和智能显存卸载,专为边端侧场景优化的端到端推理加速框架。实现推理延迟加速2倍+,支持多模型部署,精度无损失。
随着大语言模型(LLM)在各类智能应用中的广泛落地,推理效率与资源消耗已成为制约其边端部署和大规模应用的关键瓶颈。传统推测解码(Speculative Decoding)虽能提升推理速度,但普遍依赖于独立的小型草稿模型,带来系统复杂度、分布不一致和资源冗余等问题。
本项目Specular首创性地提出:直接利用大模型自身的稀疏推理变体作为Draft Model,结合自研的高效推理框架,通过单模型双模式切换,实现了推测解码的高效、简洁与无损一致性。此外,框架集成了vAttention虚拟内存管理技术和智能显存卸载机制,为大模型边端推理加速提供了全新范式。
本项目完全符合竞赛要求,围绕三大推荐优化方向进行深度创新:
我们构建了完全自主的推理框架,专为端侧场景优化:
相比vLLM:
相比llama.cpp:
# 安装flash-attn wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.9.post1/flash_attn-2.5.9.post1+cu118torch1.12cxx11abiFALSE-cp310-cp310-linux_x86_64.whl pip install ./flash_attn-2.5.9.post1+cu118torch1.12cxx11abiFALSE-cp310-cp310-linux_x86_64.whl cd fused_dense_lib pip install . cd ../ # 安装vattention cd vattention wget https://download.pytorch.org/libtorch/cu121/libtorch-shared-with-deps-2.3.0%2Bcu121.zip unzip libtorch-shared-with-deps-2.3.0+cu121.zip cd sarathi-lean/ python setup.py install cd ../ cd vattention/ LIBTORCH_PATH=<path to libtorch dir> python setup.py install cd ../ # 安装剩余依赖 pip install -r requirements.txt
# 使用Vicuna、Llama模型 python vicuna_speculative.py --use-offload --use-vattention # 使用OPT模型 python opt_speculative.py --use-offload --use-vattention
┌─────────────────────────────────────────────────────────────┐ │ Specular 推理引擎 │ ├─────────────────────────────────────────────────────────────┤ │ 输入处理 │ 稀疏预测器 │ 推测解码控制 │ 输出后处理 │ ├─────────────────────────────────────────────────────────────┤ │ 模型执行层 │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────┐ │ │ │ 稀疏草稿模式 │ │ 全参验证模式 │ │ 智能卸载调度 │ │ │ └─────────────┘ └─────────────┘ └─────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ vAttention 内存管理 │ │ ┌──────────────┐ ┌──────────────┐ ┌─────────────────┐ │ │ │ 虚拟内存分配 │ │ KV Cache管理 │ │ GPU-CPU调度 │ │ │ └──────────────┘ └──────────────┘ └─────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件抽象层 │ │ GPU计算核心 │ CPU辅助计算 │ 内存管理 │ └─────────────────────────────────────────────────────────────┘
测试环境: GPU: NVIDIA RTX 4090 (24GB VRAM) CPU: Intel i9-14900K (24 cores) RAM: 64GB DDR5-5600 Storage: 2TB NVMe SSD 软件环境: OS: Ubuntu 22.04 LTS CUDA: 12.1 PyTorch: 2.3.0 Python: 3.10
OPT-6.7B, Llama-2-7b-chat, Vicuna-7b
使用我们方块和不使用我们方法的推理加速比:
感谢竞赛组委会提供的优秀平台,感谢所有开源社区的贡献者。我们致力于通过技术创新推动大模型推理效率的发展,为AI技术的普及和应用贡献力量。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
Specular: 面向大语言模型高效推理框架的系统级优化与实现
项目简介
随着大语言模型(LLM)在各类智能应用中的广泛落地,推理效率与资源消耗已成为制约其边端部署和大规模应用的关键瓶颈。传统推测解码(Speculative Decoding)虽能提升推理速度,但普遍依赖于独立的小型草稿模型,带来系统复杂度、分布不一致和资源冗余等问题。
本项目Specular首创性地提出:直接利用大模型自身的稀疏推理变体作为Draft Model,结合自研的高效推理框架,通过单模型双模式切换,实现了推测解码的高效、简洁与无损一致性。此外,框架集成了vAttention虚拟内存管理技术和智能显存卸载机制,为大模型边端推理加速提供了全新范式。
技术方案
三大核心优化方向
本项目完全符合竞赛要求,围绕三大推荐优化方向进行深度创新:
1. 主要创新点:推测解码技术创新⚡
2. 注意力计算加速技术
3. 内存管理技术革新
主要特性
推理框架对比
我们构建了完全自主的推理框架,专为端侧场景优化:
相比vLLM:
相比llama.cpp:
快速部署指南
系统要求
环境部署
快速开始
技术架构
🏗系统架构图
工作流程
实验评估
硬件配置
测试大语言模型
OPT-6.7B, Llama-2-7b-chat, Vicuna-7b
测试数据集
实验结果
使用我们方块和不使用我们方法的推理加速比:
🌟 项目亮点与价值
学术价值
工程价值
致谢
感谢竞赛组委会提供的优秀平台,感谢所有开源社区的贡献者。我们致力于通过技术创新推动大模型推理效率的发展,为AI技术的普及和应用贡献力量。