support qwen3-next (#385)
extract BaseMegatronMapper
rename MegatronMapper
make update_mapping only called in ‘inner_map*’
extract Megatron Mapper for VLM
clean docstring
fix pylint
fix pylint
remove src_arch
make some mapping functions be fully configurable
init commit
test qwen2_5_vl
fix pylint
fix issues when PP > 1
passing a copy to avoid inplace modification on fp32 logits
fix issue
add draft version of qwen3-vl
add how to build image for qwen3-next
fix param_sync
Add SGLANG PATCH to README
fix readme and scripts
fix memory_pool.py overwrite in readme
demo
demo update
fix wandb logging
demo update
fix convergence issue
update readme
fix pylint
Co-authored-by: Peng Li jerryli1981@gmail.com
版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9
京公网安备 11010802032778号
灵活、易用、高效的大语言模型(LLMs)强化学习训练框架
English | 中文
最新进展 🔥
ChatLearn 是阿里云PAI团队开发的大规模LLMs强化学习训练框架。ChatLearn 通过对模型计算逻辑的抽象,解耦了模型和计算 backend、分布式策略的绑定,提供灵活的资源调度机制,可以支持灵活的资源分配和并行调度策略。
ChatLearn的特点如下:
快速开始
请参考 文档 快速开始.
功能列表
runtime_args.rollout_engine参数进行控制性能评估
我们比较了不同参数量规模模型的 RLHF 训练吞吐量,我们采取 N+N 的模型配置,即 Policy 模型和 Reward 模型采用相同大小的参数量。我们和 DeepSpeed-Chat、OpenRLHF 对比了 7B 和 70B 的模型配置,在 8 GPUs 7B+7B 规模,有 115% 的加速,在 32 GPUs 70B+70B 规模,有 208% 的加速。规模越大,加速效果越明显。同时ChatLearn还能支持更大规模的强化学习训练,例如:600B 规模。
注:DeepSpeed-Chat和OpenRLHF性能已经优化过。
Roadmap
ChatLearn 接下来会支持以下特性:
我们正在持续招聘,欢迎随时与我们联系或将您的简历发送至邮箱。