目录

vLLM 101: Zero to Hero

这是什么?

vLLM 是目前最流行的高性能大语言模型推理引擎,核心特性包括 PagedAttention、连续批处理、高吞吐量。但官方文档偏“参考手册”,缺少从零到生产级别的系统化路径。

vLLM 101 就是补上这一环。 一门实战向的进阶课程 / 学习项目,带你从安装、运行第一个模型开始,一路走到多卡并行、性能调优、自定义模型接入,最终能像专家一样部署和优化 vLLM 服务。

你将从这里得到什么?

🔰 Phase 1: 零基础起步

– 了解沐曦GPU – vLLM 安装(pip / docker / 源码编译) – 加载任意开源大模型,发起第一个推理请求 – 理解离线批处理 vs 在线 API 服务的基本差异

⚙️ Phase 2: 核心机制深入

– PagedAttention 原理(不用怕,用代码和实验讲清楚) – 连续批处理如何让吞吐量翻倍 – 量化(AWQ / GPTQ / FP8)在 vLLM 中的真实效果测试

🚀 Phase 3: 生产级部署

– 使用 vllm serve 启动 OpenAI 兼容 API – 高并发压测:调整 –max-num-seqs、–max-model-len 等参数 – 搭配 FastAPI + vLLM 做自定义预处理 / 后处理

🏆 Phase 4: 成为 vLLM “大牛”

– 添加自定义模型架构到 vLLM(不只是换权重) – 修改调度策略和内存管理逻辑 – 参与 vLLM 社区贡献的真实路径 + 常见 PR 类型

适合谁?

– 用过 vLLM 但只会 python run.py 的人 – 想在生产环境用 vLLM 但不知道参数怎么调的人 – 想读懂或修改 vLLM 源码的人 – 准备参加大模型推理比赛 / 国产 GPU 适配的同学

形式 / 风格

– 代码先行,文案极简 – 每个阶段附带可运行的示例脚本 + 参数对比实验 – 不堆砌概念,遇到一个坑填一个坑

关于

这是一门实战向的进阶课程 / 学习项目,带你基于沐曦 GPU 从安装、运行第一个模型开始,一路走到多卡并行、性能调优、自定义模型接入,最终能像专家一样部署和优化 vLLM 服务。

322.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号