目录

ChatLearn

灵活、易用、高效的大语言模型(LLMs)强化学习训练框架

docs License

English  |  中文 


最新进展 🔥

  • [2025/10] 通过上下文并行(Context Parallel)与序列打包(Sequence Packing)提升Moonlight/DeepSeek-V3等MLA模型的强化学习训练稳定性和效率文档🔥
  • [2025/9] 支持Agentic任务强化学习训练文档🔥
  • [2025/9] 支持VL任务强化学习训练文档🔥
  • [2025/8] 支持基于Mcore的GSPO强化学习训练!🔥
  • [2025/7] 提供基于Mcore的DeepSeek-V3-671B强化学习训练示例!🔥
  • [2025/7] 提供基于McoreFSDP2的Qwen3-235B-A22B强化学习训练示例!
  • [2025/7] 训练支持FSDP2框架!提供sequence packing,sequence parallelism,group GEMM支持实现高效易用的强化学习训练!
  • [2025/5] 训练支持Mcore框架!基于Mcore和vLLM,我们提供了Qwen3模型的端到端GRPO训练教学!
  • [2025/5] 训练支持FSDP框架!基于FSDP和vLLM,我们提供了Qwen3模型的端到端GRPO训练教学!
  • [2024/8] 正式开源 ChatLearn,更多介绍请参考我们的 文档

ChatLearn 是阿里云PAI团队开发的大规模LLMs强化学习训练框架。ChatLearn 通过对模型计算逻辑的抽象,解耦了模型和计算 backend、分布式策略的绑定,提供灵活的资源调度机制,可以支持灵活的资源分配和并行调度策略。

RLHF Flow

ChatLearn的特点如下:

  1. 🚀易用的编程接口: ChatLearn提供通用的编程抽象,用户只需要封装几个函数即可完成模型构造。用户只需要专注于单模型的编程,系统负责资源调度、数据流传输、控制流传输、分布式执行等。
  2. 🔧高可扩展的训练方式: ChatLearn 支持用户自定义模型执行流,使定制化训练流程更加灵活便捷。
  3. 🔄多种分布式加速引擎: ChatLearn支持业界SOTA训练(FSDP2,Megatron)和推理引擎(vLLM, SGLang),实现卓越的训练吞吐能力
  4. 🎯灵活的并行策略和资源分配: ChatLearn 支持不同模型配置不同的并行策略,可以结合各模型计算、显存、通信的特点来制定不同的并行策略。同时 ChatLearn 支持灵活的资源调度机制,支持各模型的资源独占或复用,通过系统调度策略支持高效的串行/并行执行和高效的显存共享。
  5. 高性能: 相较于当前的 SOTA 系统,ChatLearn 在 7B+7B (Policy+Reward) 规模性能提升52%,70B+70B 规模性能提升 137%。同时,ChatLearn 支持600B+规模的强化学习训练。

快速开始

请参考 文档 快速开始.

  1. 环境和代码准备
  2. 基于 FSDP + vLLM的Qwen3模型端到端GRPO训练流程
  3. 基于 Megatron + vLLM的Qwen3模型端到端GRPO训练流程

功能列表

  • 支持MegatronFSDP训练引擎
  • 支持vLLM、SGLang推理引擎,通过runtime_args.rollout_engine参数进行控制
  • 支持GRPO、GSPO等强化学习算法
  • 支持使用wandb、tensorboard监控实验
  • 支持sequence packing、ulysses sequence parellel、Group GEMM等训练加速技术

性能评估

我们比较了不同参数量规模模型的 RLHF 训练吞吐量,我们采取 N+N 的模型配置,即 Policy 模型和 Reward 模型采用相同大小的参数量。我们和 DeepSpeed-Chat、OpenRLHF 对比了 7B 和 70B 的模型配置,在 8 GPUs 7B+7B 规模,有 115% 的加速,在 32 GPUs 70B+70B 规模,有 208% 的加速。规模越大,加速效果越明显。同时ChatLearn还能支持更大规模的强化学习训练,例如:600B 规模。

Compare Performance

注:DeepSpeed-Chat和OpenRLHF性能已经优化过。

Roadmap

ChatLearn 接下来会支持以下特性:

  • 简化参数配置
  • 提供MoE模型强化学习训练的教程
  • 支持更多的模型
  • 性能优化
  • 支持更多的强化学习算法

我们正在持续招聘,欢迎随时与我们联系或将您的简历发送至邮箱

邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号