报错说明
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
报错如图所示
报错分析
该报错是 torch 和 CUDA 版本不兼容导致。 (一般N卡自带的CUDA版本与最新的torch版本相差较大)
解决方案
1.查看自己的CUDA版本
# 查看自己的显卡驱动和CUDA版本
nvidia-smi
2.查看自己的torch版本
python -c "import torch; print(torch.__version__)" # 查看pytorch版本
python -c "import torch; print(torch.version.cuda)" # 查看pytorch使用的CUDA版本
3.根据自己需要使用的项目的建议重新配置torch或者CUDA,使版本兼容。