目录
关于

随着大语言模型在边端侧的应用不断拓展,推理服务的重要性日益凸显,其效率直接关乎用户体验,因此,迫切需要对边端侧大模型的推理效率进行优化。目前,已有不少推理框架与架构从不同维度对大模型推理展开优化工作。比如,vLLM运用PagedAttention技术,显著提升了显存利用率;llama.cpp借助量化技术、硬件加速及跨平台兼容性,有效降低了大模型的部署门槛。然而,鉴于边端侧环境普遍存在端到端延迟敏感

2.3 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号