简体中文 | English

概览

Easy Parallel Library (EPL) 是一个高效易用的分布式模型训练框架。 EPL提供了简单易用的API来表达各种并行化策略，用户仅需几行代码就可以轻松支持各种模型的高性能分布式训练。

EPL深度集成了各种训练优化技术，帮助更多的用户低成本，高性能，轻松开启大模型训练。

支持各种并行化策略及混合并行，用户仅通过转换并行化接口来实现不同并行化策略训练。
支持各种显存优化技术，包含自动Gradient Checkpoint，ZERO，CPU Offload技术等，帮助用户用更少的资源训练更大的模型。
支持通信优化技术，实现高效的分布式扩展性。

EPL助力了最大的中文多模态模型M6实现大规模分布式训练，通过512卡即可训练10万亿参数模型。

您可以阅读文档了解更多信息。同时EPL Model Zoo 提供了完整的分布式训练案例。

使用EPL添加分布式策略

通过添加几行代码，用户即可实现不同的并行化策略。完整的API介绍和并行化例子详见API。你也可以参考使用教程来训练EPL模型库例子。

数据并行

+ import epl
+ epl.init()
+ with epl.replicate(device_count=1):
    model()

流水并行

+ import epl
+ 
+ config = epl.Config({"pipeline.num_micro_batch": 4})
+ epl.init(config)
+ with epl.replicate(device_count=1, name="stage_0"):
    model_part1()
+ with epl.replicate(device_count=1, name="stage_1"):
    model_part2()

在上述例子中，模型被切分成2部分，用户可以通过配置pipeline.num_micro_batch参数来设定Pipeline的micro batch数量。

算子拆分

+ import epl
+ config = epl.Config({"cluster.colocate_split_and_replicate": True})
+ epl.init(config)
+ with epl.replicate(8):
    resnet()
+ with epl.split(8):
    classification()

在上述例子中，我们对ResNet模型部分进行数据并行，对分类层进行算子拆分。

Citation

$@ i n p r o c e e d i n g s j i a 2022 w h a l e, a u t h o r = X i a n y a n J i a a n d L e J i a n g a n d A n g W a n g a n d W e n c o n g X i a o a n d Z i j i S h i a n d J i e Z h a n g a n d X i n y u a n L i a n d L a n g s h i C h e n a n d Y o n g L i a n d Z h e n Z h e n g a n d X i a o y o n g L i u a n d W e i L i n, t i t l e = W h a l e : E f f i c i e n t G i a n t M o d e l T r a i n i n g o v e r H e t e r o g e n e o u s G P U s, b o o k t i t l e = 2022 U S E N I X A n n u a l T e c h n i c a l C o n f e r e n c e (U S E N I X A T C 22), y e a r = 2022, i s b n = 978 - 1 - 939133 - 29 - 57, a d d r e s s = C a r l s b a d, C A, p a g e s = 673 - - 688, u r l = h t t p s : / / w w w . u s e n i x . o r g / c o n f e r e n c e / a t c 22 / p r e s e n t a t i o n / j i a - x i a n y a n, p u b l i s h e r = U S E N I X A s s o c i a t i o n, m o n t h = j u l,$

联系我们

欢迎给我们提issue, 或者加入EPL官方钉钉群。

DingTalk Group