update ding group image (#26) update ding group
update ding group image (#26)
简体中文 | English
Easy Parallel Library (EPL) 是一个高效易用的分布式模型训练框架。 EPL提供了简单易用的API来表达各种并行化策略, 用户仅需几行代码就可以轻松支持各种模型的高性能分布式训练。
EPL深度集成了各种训练优化技术,帮助更多的用户低成本,高性能,轻松开启大模型训练。
EPL助力了最大的中文多模态模型M6实现大规模分布式训练,通过512卡即可训练10万亿参数模型。
您可以阅读文档了解更多信息。同时EPL Model Zoo 提供了完整的分布式训练案例。
通过添加几行代码,用户即可实现不同的并行化策略。完整的API介绍和并行化例子详见API。 你也可以参考使用教程 来训练EPL模型库例子。
数据并行
+ import epl + epl.init() + with epl.replicate(device_count=1): model()
流水并行
+ import epl + + config = epl.Config({"pipeline.num_micro_batch": 4}) + epl.init(config) + with epl.replicate(device_count=1, name="stage_0"): model_part1() + with epl.replicate(device_count=1, name="stage_1"): model_part2()
在上述例子中,模型被切分成2部分,用户可以通过配置pipeline.num_micro_batch参数来设定Pipeline的micro batch数量。
pipeline.num_micro_batch
算子拆分
+ import epl + config = epl.Config({"cluster.colocate_split_and_replicate": True}) + epl.init(config) + with epl.replicate(8): resnet() + with epl.split(8): classification()
在上述例子中,我们对ResNet模型部分进行数据并行,对分类层进行算子拆分。
@inproceedingsjia2022whale,author=XianyanJiaandLeJiangandAngWangandWencongXiaoandZijiShiandJieZhangandXinyuanLiandLangshiChenandYongLiandZhenZhengandXiaoyongLiuandWeiLin,title=Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs,booktitle=2022USENIXAnnualTechnicalConference(USENIXATC22),year=2022,isbn=978−1−939133−29−57,address=Carlsbad,CA,pages=673−−688,url=https://www.usenix.org/conference/atc22/presentation/jia−xianyan,publisher=USENIXAssociation,month=jul,@inproceedings {jia2022whale, author = {Xianyan Jia and Le Jiang and Ang Wang and Wencong Xiao and Ziji Shi and Jie Zhang and Xinyuan Li and Langshi Chen and Yong Li and Zhen Zheng and Xiaoyong Liu and Wei Lin}, title = {Whale: Efficient Giant Model Training over Heterogeneous {GPUs}}, booktitle = {2022 USENIX Annual Technical Conference (USENIX ATC 22)}, year = {2022}, isbn = {978-1-939133-29-57}, address = {Carlsbad, CA}, pages = {673--688}, url = {https://www.usenix.org/conference/atc22/presentation/jia-xianyan}, publisher = {USENIX Association}, month = jul, }@inproceedingsjia2022whale,author=XianyanJiaandLeJiangandAngWangandWencongXiaoandZijiShiandJieZhangandXinyuanLiandLangshiChenandYongLiandZhenZhengandXiaoyongLiuandWeiLin,title=Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs,booktitle=2022USENIXAnnualTechnicalConference(USENIXATC22),year=2022,isbn=978−1−939133−29−57,address=Carlsbad,CA,pages=673−−688,url=https://www.usenix.org/conference/atc22/presentation/jia−xianyan,publisher=USENIXAssociation,month=jul,
欢迎给我们提issue, 或者加入EPL官方钉钉群。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
简体中文 | English
概览
Easy Parallel Library (EPL) 是一个高效易用的分布式模型训练框架。 EPL提供了简单易用的API来表达各种并行化策略, 用户仅需几行代码就可以轻松支持各种模型的高性能分布式训练。
EPL深度集成了各种训练优化技术,帮助更多的用户低成本,高性能,轻松开启大模型训练。
EPL助力了最大的中文多模态模型M6实现大规模分布式训练,通过512卡即可训练10万亿参数模型。
您可以阅读文档了解更多信息。同时EPL Model Zoo 提供了完整的分布式训练案例。
使用EPL添加分布式策略
通过添加几行代码,用户即可实现不同的并行化策略。完整的API介绍和并行化例子详见API。 你也可以参考使用教程 来训练EPL模型库例子。
数据并行
流水并行
在上述例子中,模型被切分成2部分,用户可以通过配置
pipeline.num_micro_batch参数来设定Pipeline的micro batch数量。算子拆分
在上述例子中,我们对ResNet模型部分进行数据并行,对分类层进行算子拆分。
Citation
@inproceedingsjia2022whale,author=XianyanJiaandLeJiangandAngWangandWencongXiaoandZijiShiandJieZhangandXinyuanLiandLangshiChenandYongLiandZhenZhengandXiaoyongLiuandWeiLin,title=Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs,booktitle=2022USENIXAnnualTechnicalConference(USENIXATC22),year=2022,isbn=978−1−939133−29−57,address=Carlsbad,CA,pages=673−−688,url=https://www.usenix.org/conference/atc22/presentation/jia−xianyan,publisher=USENIXAssociation,month=jul,
联系我们
欢迎给我们提issue, 或者加入EPL官方钉钉群。