在使用pytorch或paddlepaddle的時候會出現(xiàn)分布式多卡運行卡住的問題,下面是我的2種解決方案:
1.pytorch多卡運行卡住
解決方案:通信庫將nccl換為gloo
# dist.init_process_group(backend='nccl')
dist.init_process_group(backend='gloo')
2.paddlepaddle多卡運行卡住
由于paddlepaddle對gloo的支持不友好,目前無法使用gloo分布式訓練,所以我們可以這樣這樣做:在代碼運行之前,輸入:
export NCCL_P2P_LEVEL=NVL