tensorflow随机梯度下降算法使用滑动平均模型

2023-06-26 22:19•JavaScript•阅读 4286

在采用随机梯度下降算法训练神经网络时，使用滑动平均模型可以提高最终模型在测试集数据上的表现。在Tensflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时，需要提供一个衰减率（decay)。这个衰减率将用于控制模型更新的速度。ExponentialMovingAverage对每一个变量会维护一个影子变量（shadowvariable),这个影子变量的初始值就是相应变量的初始值，而每次运行变量更新时，影子变量的值会更新为：

shadow_variable=decay x shadow_variable+(1-decay) x variable

其中shadow_variable 为影子变量，variable为待更新的变量，decay为衰减率。decay决定了模型更新的速度，decay越大模型越趋于稳定。在实际应用中，decay一般会设成非常接近1的数（比如0.999或0.9999）。为了使得模型在训练前期可以更新得更快，ExponentialMovingAverage还提供了num_updates参数来动态设置decay的大小.

下面是ExponentailMovingAverage使用示例

# -*- coding:UTF-8 -*-
import  tensorflow as tf
# 定义一个初始为0的变量来计算滑动平均

v1=tf.Variable(0,dtype=tf.float32)

#这里的step变量模拟神经网络中迭代的轮数，可以用于动态控制衰减率
step=tf.Variable(0,trainable=False)

#定义一个滑动平均的类，初始化时给定了衰减率（0.99)和控制衰减率的变量step
ema=tf.train.ExponentialMovingAverage(0.99,step)

# 定义一个更新变量滑动平均的操作，这里给定一个列表，每次执行这个操作时，这个列表中的变量的值都会更新

maintain_averages_op=ema.apply([v1])
with tf.Session() as sess:
    # 初始化所有变量
     init_op=tf.global_variables_initializer()
     sess.run(init_op)

    # 通过ema.average(v1)获取滑动平均之后变量的取值。在初始化之后变量v1的值和v1的滑动平均都为0

     print sess.run([v1,ema.average(v1)])
    # 更新变量v1的值到5
     sess.run(tf.assign(v1,5))
    # 更新v1的滑动平均值，衰减率为min{0.99,(1+step)/(10+step)=0.1}=0.1
    # 所以v1的滑动平均会被更新为0.1*0+0.9*5=4.5

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])

    # 更新 step的值为10000
     sess.run(tf.assign(step,10000))
    # 更新 v1的值为10。
     sess.run(tf.assign(v1,10))
    # 更新v1 的滑动平均值。衰减率为min(0.99,(1+step)/(10+step)≈0.999}=0.99
    # 所以v1的滑动平均会被更新为0.99*4.5+0.01*10=4.555

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])
   
    #再次更新滑动平均值，得到的新滑动平均值为0.99*4.555+0.01*10=4.60945

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])

结果如下

[0.0, 0.0]

[5.0, 4.5]

[10.0, 4.555]

[10.0, 4.60945]

上一篇 »线性回归随机梯度下降SGD ，Tensorflow 2.1
下一篇 »梯度算法的Matlab实现

tensorflow随机梯度下降算法使用滑动平均模型

相关推荐

跟我学算法-图像识别之图像分类，上(基础神经网络， 卷积神经网络

TensorFlow滑动平均值

Tensorflow 梯度下降实例

『TensorFlow』滑动平均

Python之TensorFlow的变量收集、自定义命令参数、矩阵运算、梯度下降-4

Tensorflow训练神经网络

卷积神经网络，五：SGD、adagrad与RMSprop，梯度下降法总结

78、tensorflow滑动平均模型，用来更新迭代的衰减系数

跟我学算法-图像识别之图像分类，上(基础神经网络，卷积神经网络