docs: 添加 CLAUDE.md 项目文档 Co-Authored-By: Claude Opus 4.7 noreply@anthropic.com
docs: 添加 CLAUDE.md 项目文档
Co-Authored-By: Claude Opus 4.7 noreply@anthropic.com
vLLM 是目前最流行的高性能大语言模型推理引擎,核心特性包括 PagedAttention、连续批处理、高吞吐量。但官方文档偏“参考手册”,缺少从零到生产级别的系统化路径。
vLLM 101 就是补上这一环。 一门实战向的进阶课程 / 学习项目,带你从安装、运行第一个模型开始,一路走到多卡并行、性能调优、自定义模型接入,最终能像专家一样部署和优化 vLLM 服务。
– 了解沐曦GPU – vLLM 安装(pip / docker / 源码编译) – 加载任意开源大模型,发起第一个推理请求 – 理解离线批处理 vs 在线 API 服务的基本差异
– PagedAttention 原理(不用怕,用代码和实验讲清楚) – 连续批处理如何让吞吐量翻倍 – 量化(AWQ / GPTQ / FP8)在 vLLM 中的真实效果测试
– 使用 vllm serve 启动 OpenAI 兼容 API – 高并发压测:调整 –max-num-seqs、–max-model-len 等参数 – 搭配 FastAPI + vLLM 做自定义预处理 / 后处理
– 添加自定义模型架构到 vLLM(不只是换权重) – 修改调度策略和内存管理逻辑 – 参与 vLLM 社区贡献的真实路径 + 常见 PR 类型
– 用过 vLLM 但只会 python run.py 的人 – 想在生产环境用 vLLM 但不知道参数怎么调的人 – 想读懂或修改 vLLM 源码的人 – 准备参加大模型推理比赛 / 国产 GPU 适配的同学
– 代码先行,文案极简 – 每个阶段附带可运行的示例脚本 + 参数对比实验 – 不堆砌概念,遇到一个坑填一个坑
这是一门实战向的进阶课程 / 学习项目,带你基于沐曦 GPU 从安装、运行第一个模型开始,一路走到多卡并行、性能调优、自定义模型接入,最终能像专家一样部署和优化 vLLM 服务。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
vLLM 101: Zero to Hero
这是什么?
vLLM 是目前最流行的高性能大语言模型推理引擎,核心特性包括 PagedAttention、连续批处理、高吞吐量。但官方文档偏“参考手册”,缺少从零到生产级别的系统化路径。
vLLM 101 就是补上这一环。 一门实战向的进阶课程 / 学习项目,带你从安装、运行第一个模型开始,一路走到多卡并行、性能调优、自定义模型接入,最终能像专家一样部署和优化 vLLM 服务。
你将从这里得到什么?
🔰 Phase 1: 零基础起步
– 了解沐曦GPU – vLLM 安装(pip / docker / 源码编译) – 加载任意开源大模型,发起第一个推理请求 – 理解离线批处理 vs 在线 API 服务的基本差异
⚙️ Phase 2: 核心机制深入
– PagedAttention 原理(不用怕,用代码和实验讲清楚) – 连续批处理如何让吞吐量翻倍 – 量化(AWQ / GPTQ / FP8)在 vLLM 中的真实效果测试
🚀 Phase 3: 生产级部署
– 使用 vllm serve 启动 OpenAI 兼容 API – 高并发压测:调整 –max-num-seqs、–max-model-len 等参数 – 搭配 FastAPI + vLLM 做自定义预处理 / 后处理
🏆 Phase 4: 成为 vLLM “大牛”
– 添加自定义模型架构到 vLLM(不只是换权重) – 修改调度策略和内存管理逻辑 – 参与 vLLM 社区贡献的真实路径 + 常见 PR 类型
适合谁?
– 用过 vLLM 但只会 python run.py 的人 – 想在生产环境用 vLLM 但不知道参数怎么调的人 – 想读懂或修改 vLLM 源码的人 – 准备参加大模型推理比赛 / 国产 GPU 适配的同学
形式 / 风格
– 代码先行,文案极简 – 每个阶段附带可运行的示例脚本 + 参数对比实验 – 不堆砌概念,遇到一个坑填一个坑