docs: clarify gpuapps submission head Signed-off-by: chatPPT chatPPT@users.noreply.gitlink.org.cn
docs: clarify gpuapps submission head
Signed-off-by: chatPPT chatPPT@users.noreply.gitlink.org.cn
# vLLM-metax 开源贡献参赛项目
本项目围绕 vLLM-metax 进行开源贡献实践,目标是在沐曦 GPU 适配方向完成真实 issue 调研、代码贡献、PR 提交、运行验证和比赛材料归档。
目标上游项目:
参赛账号:
已根据维护者建议从旧 v0.19.0 issue #220 转向 latest master / vLLM 0.23 对齐方向。
当前上游状态:
PR #292: open, mergeable=true, waiting for review/checks PR #293: open, mergeable=true, waiting for review/checks
PR #292 是主技术贡献:同步 v1 KV cache 相关 CPU 测试到 vLLM 0.23 API,并修复 MetaX 环境中的测试收集与 cleanup 兼容问题。Gemini Code Assist 指出的 ModelConfig(max_model_len=...) 问题已通过 follow-up commit 425a769 修复。
ModelConfig(max_model_len=...)
425a769
PR #293 是独立文档贡献:将 MACA source build 文档中的 vLLM 分支从 releases/v0.22.0 对齐到当前 master 使用的 releases/v0.23.0。Gemini Code Assist 没有提出修改意见。
releases/v0.22.0
releases/v0.23.0
logs/remote_validation/044_final_verify_vllm023_kv_cache_tests.txt
logs/remote_validation/058_verify_pr292_modelconfig_followup_scheduler_tokens.txt
logs/remote_validation/061_verify_pr292_local_core_tests_clean_worktree.txt
logs/remote_validation/050_pr2_source_probe.txt
logs/remote_validation/064_c500_torch_compute_and_metax_imports.txt
logs/remote_validation/075_tiny_dummy_inference_with_complete_accelerator_shim.txt
logs/remote_validation/078_real_weight_tiny_llama_inference_c500_generate_api.txt
records/gpuapps_issue_submission.md
screenshots/01_pr_and_validation_snapshot.svg
screenshots/02_c500_runtime_snapshot.svg
C500 clean worktree 验证摘要:
Commit: 425a76942c6ee48ccb78a1460d22fdb54d366f17 GPU: MetaX C500 64GB torch: 2.8.0+metax3.5.3.9 vLLM: 0.23.0 collect: 63/66 tests collected, 3 deselected pytest: 63 passed, 3 deselected, 5 warnings
3 个 deselected 用例均为真实 ModelConfig("Qwen/Qwen1.5-7B", ...) 外部模型配置解析路径;未过滤的完整运行已收集 66 tests,并在外部 HuggingFace 配置请求处阻塞前通过 33 passed,记录见 logs/remote_validation/059_verify_pr292_full_core_tests_clean_worktree.txt。
ModelConfig("Qwen/Qwen1.5-7B", ...)
66 tests
33 passed
logs/remote_validation/059_verify_pr292_full_core_tests_clean_worktree.txt
C500 运行补充验证:
vLLM-metax key imports: OK torch.cuda device: MetaX C500 float16 matmul: 1024 x 1024, cuda:0, checksum recorded
最小 vLLM dummy inference 已完成,日志为 logs/remote_validation/075_tiny_dummy_inference_with_complete_accelerator_shim.txt。当前环境没有现成模型缓存,因此使用本地 tiny Llama config + load_format="dummy",并在 vLLM 0.23 隔离环境中补齐运行依赖和 runtime shim。最终结果:
load_format="dummy"
LLM engine initialized on MetaX C500 generated_token_ids [8] finish_reason length
随后进一步生成本地 HF safetensors 随机权重模型,不依赖外网下载,在同一 C500 环境中完成真实权重加载和 token generation,日志为 logs/remote_validation/078_real_weight_tiny_llama_inference_c500_generate_api.txt。最终结果:
safetensors
Loading safetensors checkpoint shards: 100% Model loading took 0.0 GiB memory and 0.191696 seconds GPU KV cache size: 32,519,616 tokens prompt_token_ids [1, 10, 11, 12] generated_token_ids [7, 75, 31, 89] finish_reason length
本项目基于 vLLM-metax 开源项目进行贡献,不直接复制为参赛作品;参赛产出是针对上游项目的真实 issue 分析、代码 PR、测试验证、文档和性能记录。
vLLM-metax 开源贡献参赛材料归档
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802047560号
# vLLM-metax 开源贡献参赛项目
项目简介
本项目围绕 vLLM-metax 进行开源贡献实践,目标是在沐曦 GPU 适配方向完成真实 issue 调研、代码贡献、PR 提交、运行验证和比赛材料归档。
目标上游项目:
参赛账号:
当前贡献状态
已根据维护者建议从旧 v0.19.0 issue #220 转向 latest master / vLLM 0.23 对齐方向。
当前上游状态:
PR #292 是主技术贡献:同步 v1 KV cache 相关 CPU 测试到 vLLM 0.23 API,并修复 MetaX 环境中的测试收集与 cleanup 兼容问题。Gemini Code Assist 指出的
ModelConfig(max_model_len=...)问题已通过 follow-up commit425a769修复。PR #293 是独立文档贡献:将 MACA source build 文档中的 vLLM 分支从
releases/v0.22.0对齐到当前 master 使用的releases/v0.23.0。Gemini Code Assist 没有提出修改意见。关键证据
logs/remote_validation/044_final_verify_vllm023_kv_cache_tests.txtlogs/remote_validation/058_verify_pr292_modelconfig_followup_scheduler_tokens.txtlogs/remote_validation/061_verify_pr292_local_core_tests_clean_worktree.txtlogs/remote_validation/050_pr2_source_probe.txtlogs/remote_validation/064_c500_torch_compute_and_metax_imports.txtlogs/remote_validation/075_tiny_dummy_inference_with_complete_accelerator_shim.txtlogs/remote_validation/078_real_weight_tiny_llama_inference_c500_generate_api.txtrecords/gpuapps_issue_submission.mdscreenshots/01_pr_and_validation_snapshot.svg、screenshots/02_c500_runtime_snapshot.svgC500 clean worktree 验证摘要:
3 个 deselected 用例均为真实
ModelConfig("Qwen/Qwen1.5-7B", ...)外部模型配置解析路径;未过滤的完整运行已收集66 tests,并在外部 HuggingFace 配置请求处阻塞前通过33 passed,记录见logs/remote_validation/059_verify_pr292_full_core_tests_clean_worktree.txt。C500 运行补充验证:
最小 vLLM dummy inference 已完成,日志为
logs/remote_validation/075_tiny_dummy_inference_with_complete_accelerator_shim.txt。当前环境没有现成模型缓存,因此使用本地 tiny Llama config +load_format="dummy",并在 vLLM 0.23 隔离环境中补齐运行依赖和 runtime shim。最终结果:随后进一步生成本地 HF
safetensors随机权重模型,不依赖外网下载,在同一 C500 环境中完成真实权重加载和 token generation,日志为logs/remote_validation/078_real_weight_tiny_llama_inference_c500_generate_api.txt。最终结果:仓库内容
后续待完成
参考来源说明
本项目基于 vLLM-metax 开源项目进行贡献,不直接复制为参赛作品;参赛产出是针对上游项目的真实 issue 分析、代码 PR、测试验证、文档和性能记录。