docs: update cpu-offload-params report with verified CUDA Graph data
- Add CUDA Graph mode performance results (all configs verified)
- Fix section 7: CUDA Graph confirmed compatible (not crashing)
- Remove stale “待验证” references, all items now verified
- Add full performance comparison (eager + graph, CUDA vs NPU)
- Expand architecture details (6 implementation details)
Co-Authored-By: Claude Opus 4.6 noreply@anthropic.com
ccf-vllm-ascend
本仓库用于提交 vLLM Ascend 适配赛参赛材料。
目录说明
.codex/skills/vllm-ascend-setup:使用 AI 工具搭建 vLLM Ascend 开发环境的 skillspeculative-token-tree-adaptation:适配speculative_token_tree的 skillcpu-offload-params-adaptation:适配--cpu-offload-paramsprefetch 后端的 skillcompilation-config-adaptation:适配--compilation-config的 skillSKILL.md、references/、scripts/第一组:已提交参数(01-02)
source_adaptations/01-feat-mm-encoder-only--mm-encoder-onlymm-encoder-only.patch:可直接应用的 patchchanged_files/:对应修改文件validation/:真实 CLI 验证记录source_adaptations/02-add-load-format-and-kv-cache-dtype-paramsload_format/kv_cache_dtype兼容性0001-*.patch:原 PR patchload-format-follow-up.patch:后续补充 patchchanged_files/:对应修改文件validation/:真实权重验证记录第二组:新提交参数(03-05)
source_adaptations/03-speculative-token-treespeculative_token_tree(EAGLE 树结构推测解码)speculative_token_tree.patch:可直接应用的 patchspeculative_token_tree_implementation_report.md:实现技术报告changed_files/:对应修改文件(7 个文件)source_adaptations/04-cpu-offload-params--cpu-offload-params(prefetch 后端 - CPU 参数卸载)cpu_offload_params.patch:可直接应用的 patchcpu-offload-params-implementation-report.md:实现技术报告changed_files/:对应修改文件(11 个文件)feature/cpu-offload-paramssource_adaptations/05-compilation-config--compilation-config mode和--compilation-config dynamic_shapes_configcompilation_config.patch:可直接应用的 patchcompilation-config-implementation-report.md:实现技术报告changed_files/:对应修改文件(4 个文件)说明
02-add-load-format-and-kv-cache-dtype-params目录中保留了两层内容:原始 PR patch + 本地补充的 follow-up patch,可以区分原始分支提交内容和基于真实 NPU/权重验证后补充的兼容修正。05-compilation-config包含两个子参数(mode和dynamic_shapes_config),因为共享同一套源码修改,合并在一份报告中。