tensorflow 运行效率 GPU memory leak 问题解决

2024-04-06 00:21•html•阅读 1538

问题描述：

　　Tensorflow 训练时运行越来越慢，重启后又变好。

　　用的是Tensorflow-GPU 1.2版本，在GPU上跑，大概就是才开始训练的时候每个batch的时间很低，然后随着训练的推进，每个batch的耗时越来越长，但是当我重启后，又一切正常了？

问题查找：

　　一开始查到的原因是batch_size 和 batch_num的问题，通过python yield 数据生成器解决，确保内存每次处理的数据确定是batch_size大小，但是发现运行效率还是不高，所以查阅google的一些资料找到如下解决办法。

问题解决：

　　因为在运行时的session里定义了tf的op导致的。这样每一次迭代都会在graph里增加新的节点，导致memory leak，程序越来越慢，最后强行退出。至于在运行时程序有没有增加节点，可以在session里定义graph.finalize()锁定graph，如果跑的时候报错就证明程序在动态添加节点导致的越来越慢。

修改前代码如下：

def one_hot(labels):
    labels_num = [strnum_convert(i) for i in labels ]
    batch_size = tf.size(labels_num)
    labels = tf.expand_dims(labels_num, 1)
    indices = tf.expand_dims(tf.range(0, batch_size, 1), 1)
    concated = tf.concat([indices, labels],1)
    onehot_labels = tf.sparse_to_dense(concated, tf.stack([batch_size, 8]), 1, 0)
    #all_hot_labels = tf.reshape(onehot_labels,(1,612))
    return onehot_labels

修改后代码如下：

def one_hot(labels):
    one_hot_label = np.array([int(i == int(labels)) for i in range(8)])   
    ... ...
    return one_hot_label

大家可以看到罪魁祸首就是就是这个tf版本的one_hot操作，修改成numpy版本完美解决运行效率问题。

思考：

方法二：

　　上面问题的原因是GPU memory leak，我们也可以用的是一种曲线救国的方法；每隔1000个batch，当速度明显变慢的时候，就reset graph,然后才重新build模型，再load之前储存的参数tf.reset_default_graph()self.build_model()；

　　方法三：

我们在用tensorflow进行数据集制作的时候，发现当我运行eval()函数的时候，程序会越跑越跑慢，eval()生成的数值没有删除，然后会越占越多内存，解决办法是使用del命令就行，一般写成。

data=Var.eval()  
#save data to file
del data

上一篇 »JavaScript heap out of memory问题
下一篇 »webpack打包报javaScript heap out of memory的解决方法

tensorflow 运行效率 GPU memory leak 问题解决

相关推荐

tf.Session()函数的参数应用，tensorflow中使用tf.ConfigProto(配置Session运行参数&&GPU设备指定

问题解决：RuntimeError: CUDA out of memory.，....; 5.83 GiB reserved in total by PyTorch

Tensorflow如何选择GPU？

Tensorflow使用GPU训练

安装GPU版本的tensorflow过程总结

安装tensorflow-gpu出现的问题

TensorFlow设置GPU占用量

tensorflow-gpu2.1.0报错 so returning NUMA node zero解决办法