pytorch分布式训练注意事项/踩坑总结 - 持续更新

分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。

分布式训练用torchrun进行,要注意:

  1. 所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。

  2. export LOGLEVEL=DEBUG可以修改torchrun的log级别


pytorch分布式训练注意事项/踩坑总结 - 持续更新
https://jcdu.top/2024/06/18/pytorch分布式训练注意事项_踩坑总结 - 持续更新/
作者
horizon86
发布于
2024年6月18日
许可协议