English | 简体中文
paddle.distributed.launch
或者fleetrun
的接口启动训练任务即可。下面为运行脚本示例。fleetrun \
--selected_gpu 0,1,2,3,4,5,6,7 \
tools/train.py -c configs/ppyoloe/ppyoloe_crn_s_300e_coco.yml \
--eval &>logs.txt 2>&1 &
--ips
的参数,该参数表示需要参与分布式训练的机器的ip列表,不同机器的ip用逗号隔开。下面为运行代码示例。ip_list="10.127.6.17,10.127.5.142,10.127.45.13,10.127.44.151"
fleetrun \
--ips=${ip_list} \
--selected_gpu 0,1,2,3,4,5,6,7 \
tools/train.py -c configs/ppyoloe/ppyoloe_crn_s_300e_coco.yml \
--eval &>logs.txt 2>&1 &
注:
ifconfig
或者ipconfig
查看。ip_list
中的第一台机器的第一块设备是trainer0,以此类推。export FLAGS_START_PORT=17000
,端口值建议在10000~20000
之间。模型 | 数据集 | 配置 | 单机8卡耗时/精度 | 3机8卡耗时/精度 | 加速比 |
---|---|---|---|---|---|
PP-YOLOE-s | Objects365 | ppyoloe_crn_s_300e_coco.yml | 301h/- | 162h/17.7% | 1.85 |
PP-YOLOE-l | Objects365 | ppyoloe_crn_l_300e_coco.yml | 401h/- | 178h/30.3% | 2.25 |
模型 | 数据集 | 配置 | 单机8卡耗时/精度 | 4机8卡耗时/精度 | 加速比 |
---|---|---|---|---|---|
PP-YOLOE-s | COCO | ppyoloe_crn_s_300e_coco.yml | 39h/42.7% | 13h/42.1% | 3.0 |
PP-YOLOE-m | Objects365 | ppyoloe_crn_m_300e_coco.yml | 337h/- | 112h/24.6% | 3.0 |
PP-YOLOE-x | Objects365 | ppyoloe_crn_x_300e_coco.yml | 464h/- | 125h/32.1% | 3.4 |
PP-YOLOE
系列模型在多机训练过程中,均设置单卡batch size为8,同时学习率相比于单机8卡保持不变。