pytorch 常用问题解决

2023-11-08 10:26•javascript•阅读 1964

1、RuntimeError: cuda runtime erorr (77): an illegal memory access was encountered at

　　在使用命令前面加上CUDA_LAUNCH_BLOCKING=1（禁止并行的意思）（设置os.environ['CUDA_LAUNCH_BLOCKING'] = 1），也就是命令形式为：CUDA_LAUNCH_BLOCKING=1 python3 train.py

2、ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)

　　出现这个错误的情况是，在服务器上的docker中运行训练代码时，batch size设置得过大，shared memory不够（因为docker限制了shm）.解决方法是，将Dataloader的num_workers设置为0.

3、优化器的weight_decay项导致的隐蔽bug，我们都知道weight_decay指的是权值衰减，即在原损失的基础上加上一个L2惩罚项，使得模型趋向于选择更小的权重参数，起到正则化的效果。但是我经常会忽略掉这一项的存在，从而引发了意想不到的问题。

　　引用别人的例子：这次的坑是这样的，在训练一个ResNet50的时候，网络的高层部分layer4暂时没有用到，因此也并不会有梯度回传，于是我就放心地将ResNet50的所有参数都传递给Optimizer进行更新了，想着layer4应该能保持原来的权重不变才对。但是实际上，尽管layer4没有梯度回传，但是weight_decay的作用仍然存在，它使得layer4权值越来越小，趋向于0。后面需要用到layer4的时候，发现输出异常（接近于0），才注意到这个问题的存在。虽然这样的情况可能不容易遇到，但是还是要谨慎：暂时不需要更新的权值，一定不要传递给Optimizer，避免不必要的麻烦。