,原tensorflow中提示CUDA_ERROR_LAUNCH_FAILED

转载请注明出处:

http://www.cnblogs.com/darkknightzh/p/6606092.html

参考网址:

https://github.com/tensorflow/tensorflow/issues/6509#issuecomment-277882893

说明:不确定是否还有其他原因。我这边是这样解决的。

具体错误如下:

tensorflow/stream_executor/cuda/cuda_driver.cc:1185] failed to enqueue async memcpy from host to device: CUDA_ERROR_LAUNCH_FAILED
tensorflow/stream_executor/cuda/cuda_driver.cc:49] Erroe polling for event status: failed to query enent: CUDA_ERROR_LAUNCH_FAILED
tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc203] Unexpected event status: 1
Aborted (core dumped)

这个不太确定具体都是什么原因,但是我这边tensorflow程序运行了几次,每次运行一段时间后,就提示上面的问题。后来看参考网址上DIPRECXY说,更新cudnn5.1(虽然问题不一样,但是我这边确实解决了)。更新了之后,运行了一段时间,确实没有出现上面的错误。

顺便,torch7中运行程序也崩溃(以前没有出现过),更新了之后,也没再崩溃。

因而猜测,可能是之前cuda使用的是7.5的,然后cudnn也是配套的5.0还是哪个版本。前几天改成了cuda8.0,但是cudnn没有更新。因而程序运行一段时间之后,就崩溃。改成了配套的cudnn之后,就可以了。