目录

ccf-vllm-ascend

本仓库用于提交 vLLM Ascend 适配赛参赛材料。

目录说明

  • .codex/skills/
    • vllm-ascend-setup:使用 AI 工具搭建 vLLM Ascend 开发环境的 skill
    • speculative-token-tree-adaptation:适配 speculative_token_tree 的 skill
    • cpu-offload-params-adaptation:适配 --cpu-offload-params prefetch 后端的 skill
    • compilation-config-adaptation:适配 --compilation-config 的 skill
    • 每个包含 SKILL.mdreferences/scripts/

第一组:已提交参数(01-02)

  • source_adaptations/01-feat-mm-encoder-only

    • 适配项 1:--mm-encoder-only
    • mm-encoder-only.patch:可直接应用的 patch
    • changed_files/:对应修改文件
    • validation/:真实 CLI 验证记录
  • source_adaptations/02-add-load-format-and-kv-cache-dtype-params

    • 适配项 2:load_format / kv_cache_dtype 兼容性
    • 0001-*.patch:原 PR patch
    • load-format-follow-up.patch:后续补充 patch
    • changed_files/:对应修改文件
    • validation/:真实权重验证记录

第二组:新提交参数(03-05)

  • source_adaptations/03-speculative-token-tree

    • 适配项 3:speculative_token_tree(EAGLE 树结构推测解码)
    • speculative_token_tree.patch:可直接应用的 patch
    • speculative_token_tree_implementation_report.md:实现技术报告
    • changed_files/:对应修改文件(7 个文件)
    • 对应 PR:https://github.com/vllm-project/vllm-ascend/pull/8408
  • source_adaptations/04-cpu-offload-params

    • 适配项 4:--cpu-offload-params(prefetch 后端 - CPU 参数卸载)
    • cpu_offload_params.patch:可直接应用的 patch
    • cpu-offload-params-implementation-report.md:实现技术报告
    • changed_files/:对应修改文件(11 个文件)
    • 对应分支:feature/cpu-offload-params
  • source_adaptations/05-compilation-config

    • 适配项 5+6:--compilation-config mode--compilation-config dynamic_shapes_config
    • compilation_config.patch:可直接应用的 patch
    • compilation-config-implementation-report.md:实现技术报告
    • changed_files/:对应修改文件(4 个文件)
    • 对应 PR:https://github.com/vllm-project/vllm-ascend/pull/8229

说明

  • 02-add-load-format-and-kv-cache-dtype-params 目录中保留了两层内容:原始 PR patch + 本地补充的 follow-up patch,可以区分原始分支提交内容和基于真实 NPU/权重验证后补充的兼容修正。
  • 05-compilation-config 包含两个子参数(modedynamic_shapes_config),因为共享同一套源码修改,合并在一份报告中。
关于
479.0 KB
邀请码