cd Flagperf/training/
vim run_benchmarks/config/cluster_conf.py
集群配置文件主要包括集群主机列表和SSH端口,修改HOSTS和SSH_PORT为机器实际地址
'''Cluster configs'''
#Hosts to run the benchmark. Each item is an IP address or a hostname.
HOSTS = ["10.1.2.3", "10.1.2.4", "10.1.2.5", "10.1.2.6"]
#ssh connection port
SSH_PORT = "22"
修改模型配置文件
cd Flagperf/training/
vim run_benchmarks/config/test_conf.py
batch_size: 256
# 1 item(like 1 sequence, 1 image) flops
# Attention! For transformer decoder like bert, 1 token cause 2*param flops, so we need 2*length*params like 2*512*0.33B here
# format: a_1*a*2*...*a_nea_0,like 2*512*0.33e9(bert) or 4.12e9(resnet50)
flops: 4.12e9
fp16: true
compiler: tensorrt
num_workers: 8
log_freq: 30
repeat: 5
# skip validation(will also skip create_model, export onnx). Assert exist_onnx_path != null
no_validation: false
# set a real onnx_path to use exist, or set it to anything but null to avoid export onnx manually(like torch-tensorrt)
exist_onnx_path: null
# set a exist path of engine file like resnet50.trt/resnet50.plan/resnet50.engine
exist_compiler_path: null
FlagPerf是什么
FlagPerf是智源研究院联合AI硬件厂商共建的一体化AI硬件评测引擎,旨在建立以产业实践为导向的指标体系,评测AI硬件在软件栈组合(模型+框架+编译器)下的实际能力。
📣 FlagPerf评测亮点
构建多维度评测指标体系,不止关注“耗时”:
FlagPerf 指标体系除了衡量“芯片能否支持特定模型训练”的功能正确性指标之外,还包含更多维度的性能指标、资源使用指标以及生态适配能力指标等。
支持多样例场景及任务,覆盖大模型训练推理场景
FlagPerf 已经涵盖计算机视觉、自然语言处理、语音、多模态等领域的30余个经典模型,80余个训练样例,支持评测AI硬件的训练和推理能力,以及大模型场景的推理任务评测。
支持多训练框架及推理引擎,灵活连接AI硬件与软件生态
在训练任务场景中,除了支持 PyTorch、TensorFlow,FlagPerf 还在积极与 PaddlePaddle、MindSpore 研发团队密切配合。作为国产训练框架的领军者,百度 Paddle团队、华为昇思MindSpore 团队正在将 Llama、GPT3 等明星模型集成至 FlagPerf 测试样例集。
在推理任务场景中,FlagPerf 适配了多家芯片厂商和训练框架研发团队的推理加速引擎,以更灵活地连接AI硬件与软件生态,拓宽评测的边界和效率,如英伟达TensorRT、昆仑芯XTCL(XPU Tensor Compilation Library)、天数智芯IxRT(Iluvatar CoreX RunTime)、PyTorch TorchInductor。
支持多测试环境,综合考察单卡、单机、多机性能
为全面评估国产AI芯片多样性、可扩展性、实际应用模拟情况,FlagPerf 设定了单卡、单机(通常是8卡)、多机三个测试环境,为不同的测试环境匹配了不同测试样例场景和任务。
严格审核参评代码,关注“结果公平”,更关注“过程公正”
测试由智源研究院与众多芯片厂商联合展开。总体原则是确保客观、公平地评估芯片的通用性能,限制厂商开展有针对性的定制优化。在确定测试模型之后,首先由芯片厂商进行模型适配,这个过程中只允许厂商进行分布式通信、批数据量(batch size)等和硬件执行强相关的方面的代码修改,以确保模型能够在芯片上高效运行。其次由智源研究院依托基准测试平台FlagPerf对芯片能力开展测试,并确保测试过程顺利,芯片性能和稳定性得到最佳发挥。同时,所有测试代码均已开源,测试过程、数据可复现。
🎯 未来智源及众多AI硬件、框架团队还将共同拓展FlagPerf的评测场景,如开展集群性能的整体评估,以更全面的评估国产软硬件的性能。
News
Full News
支持列表
基础规格列表:
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
厂商专用工具
算子列表:
flaggems
flaggems
flaggems
训练列表:
speed
megatron
speed
speed,
megatron-
deep
speed
speed
speed
speed
speed
megatron
megatron
megatron
megatron
megatron
(finetune)
megatron
speed
megatron
megatron
megatron
megatron
megatron
megatron
megatron
megatron
megatron
megatron
megatron
megatron
13b
speed
speed
speed
speed
tensorflow2
transformer
pytorch
xl
finetune
推理列表:
如何使用FlagPerf进行AI硬件评测
基础环境确认
物理机器内启动[默认]
容器内启动
更多阅读:
基础规格评测启动说明
具体项修改方式及原则见基础规格文档中的运行时流程章节
算子评测启动说明
训练评测启动说明
集群配置文件主要包括集群主机列表和SSH端口,修改
HOSTS和SSH_PORT为机器实际地址必改项:
推理评测启动说明
集群配置文件主要包括集群主机列表和SSH端口,修改
HOSTS和SSH_PORT为机器实际地址必改项:
生成式推理评测启动说明
参与共建FlagPerf
如需参与共建FlagPerf基础规格、训练、推理评测,请参考详细文档,依次位于基础规格文档目录、训练文档目录、推理文档目录。
为了更直观的展示厂商参与共建的实际工作量,下面给出6个已经合并进FlagPerf,面向不同特征厂商的Pull Request。
模型训练适配适配
模型推理适配
FlagPerf合作伙伴
许可证
本项目基于Apache 2.0 license。
本项目的代码来源于不同的代码仓库,关于各模型测试Case的情况,请参考各模型测试Case目录的文档。
联系我们
如有疑问,可以发送邮件至flagperf@baai.ac.cn,或在issue中说明情况