[CI][BugFix] Increase /dev/shm size limit from 15Gi to 128Gi in multi-node LWS template (#8693)
What this PR does / why we need it?
Increase the
dshm(tmpfs at/dev/shm)sizeLimitfrom 15Gi to 128Gi for both leader and worker containers inlws.yaml.jinja2.Large-scale multi-node jobs (e.g., TP=8, DP=4, 32 NPUs total) use HCCL for collective communication. HCCL allocates shared memory buffers under
/dev/shmfor each communicator group (TP, EP, DP, etc.). WithHCCL_BUFFSIZE=1024and multiple communicator domains, total SHM usage can exceed the previous 15Gi limit, causing HCCL to hang and triggering the EngineCore fatal error: TimeoutError: RPC call to sample_tokens timed outDoes this PR introduce any user-facing change?
How was this patch tested?
https://github.com/vllm-project/vllm-ascend/actions/runs/24924577211/job/72992256649?pr=8693
- vLLM version: v0.19.0
- vLLM main: https://github.com/vllm-project/vllm/commit/6f786f2c506cb07f4566771fdc62e640e2c4a176
Signed-off-by: hfadzxy starmoon_zhang@163.com
版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9
京公网安备 11010802032778号
vLLM Ascend Plugin
| 关于昇腾 | 官方文档 | #sig-ascend | 用户论坛 | 社区例会 |
English | 中文
最新消息 🔥
总览
vLLM 昇腾插件 (
vllm-ascend) 是一个由社区维护的让vLLM在Ascend NPU无缝运行的后端插件。此插件是 vLLM 社区中支持昇腾后端的推荐方式。它遵循[RFC]: Hardware pluggable所述原则:通过解耦的方式提供了vLLM对Ascend NPU的支持。
使用 vLLM 昇腾插件,可以让类Transformer、混合专家(MOE)、嵌入、多模态等流行的大语言模型在 Ascend NPU 上无缝运行。
准备
开始使用
推荐您使用以下版本快速开始使用:
贡献
请参考CONTRIBUTING文档了解更多关于开发环境搭建、功能测试以及 PR 提交规范的信息。
我们欢迎并重视任何形式的贡献与合作:
分支策略
vllm-ascend有主干分支和开发分支。
releases/v0.13.0是vllm-ascend针对vLLMv0.13.0版本的开发分支。下面是维护中的分支:
请参阅版本策略了解更多详细信息。
社区例会
许可证
Apache 许可证 2.0,如 LICENSE 文件中所示。