可控开源社区

Kevin Zhang/vLLM101

复刻自ODTC AI Infra / vLLM101

关注点赞复刻(Fork)

目录

docs: 添加 CLAUDE.md 项目文档
Co-Authored-By: Claude Opus 4.7 noreply@anthropic.com

20小时前5次提交

.gitignorechore: 添加 .gitignore 忽略 macOS 和编辑器的临时文件21小时前
CLAUDE.mddocs: 添加 CLAUDE.md 项目文档20小时前
README.mdUpdate README.md23小时前
第七章 vLLM 核心技术：PagedAttention 与连续批处理.mdtt9天前
第三章服务器部署指南（一）.mdtt9天前
第三章：Open-webUI 部署完整指南（二）.mdtt9天前
第九章 vLLM 性能基准测试与调优(vllm bench).mdtt9天前
第二章离线批量推理.mdtt9天前
第五章 vLLM 推理参数精讲.mdtt9天前
第八章：多模态输入.mdtt9天前
第六章： vLLM 架构概述.mdtt9天前
第十一章 vLLM 核心性能优化特性详解.mdtt9天前
第十三章：性能调优实战.mdtt9天前
第十二章 vLLM 量化推理.mdtt9天前
第十五章：监控与可观测性.mdtt9天前
第十六章：分布式部署.mdtt9天前
第十四章：服务化部署进阶.mdtt9天前
第十章内存优化：从原理到实践（一）.mdtt9天前
第十章内存优化：从原理到实践（二）.mdtt9天前
第十章：内存优化技术三（实验）.mdtt9天前
第四章: vLLM 模型支持与加载(一).mdtt9天前
第四章：模型加载与管理（二）.mdtt9天前

vLLM 101: Zero to Hero

这是什么？

vLLM 是目前最流行的高性能大语言模型推理引擎，核心特性包括 PagedAttention、连续批处理、高吞吐量。但官方文档偏“参考手册”，缺少从零到生产级别的系统化路径。

vLLM 101 就是补上这一环。一门实战向的进阶课程 / 学习项目，带你从安装、运行第一个模型开始，一路走到多卡并行、性能调优、自定义模型接入，最终能像专家一样部署和优化 vLLM 服务。

你将从这里得到什么？

🔰 Phase 1: 零基础起步

– 了解沐曦GPU – vLLM 安装（pip / docker / 源码编译） – 加载任意开源大模型，发起第一个推理请求 – 理解离线批处理 vs 在线 API 服务的基本差异

⚙️ Phase 2: 核心机制深入

– PagedAttention 原理（不用怕，用代码和实验讲清楚） – 连续批处理如何让吞吐量翻倍 – 量化（AWQ / GPTQ / FP8）在 vLLM 中的真实效果测试

🚀 Phase 3: 生产级部署

– 使用 vllm serve 启动 OpenAI 兼容 API – 高并发压测：调整 –max-num-seqs、–max-model-len 等参数 – 搭配 FastAPI + vLLM 做自定义预处理 / 后处理

🏆 Phase 4: 成为 vLLM “大牛”

– 添加自定义模型架构到 vLLM（不只是换权重） – 修改调度策略和内存管理逻辑 – 参与 vLLM 社区贡献的真实路径 + 常见 PR 类型

适合谁？

– 用过 vLLM 但只会 python run.py 的人 – 想在生产环境用 vLLM 但不知道参数怎么调的人 – 想读懂或修改 vLLM 源码的人 – 准备参加大模型推理比赛 / 国产 GPU 适配的同学

形式 / 风格

– 代码先行，文案极简 – 每个阶段附带可运行的示例脚本 + 参数对比实验 – 不堆砌概念，遇到一个坑填一个坑

关于

这是一门实战向的进阶课程 / 学习项目，带你基于沐曦 GPU 从安装、运行第一个模型开始，一路走到多卡并行、性能调优、自定义模型接入，最终能像专家一样部署和优化 vLLM 服务。

322.0 KB

邀请码

Gitlink（确实开源）

加入我们
官网邮箱：gitlink@ccf.org.cn

QQ群

QQ群

公众号

公众号

版权所有：中国计算机学会技术支持：开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号