手工制作的Xavier初始化器：在lrelu和relu中应使用哪些值

作为在如何在TensorFlow中进行Xavier初始化的一个回复（不是被选中的那个）的后续：有人知道在relu和特别是leaky relu中应该使用哪些值吗？

我指的是这一部分：

# use 4 for sigmoid, 1 for tanh activation

这是当时给出的：

(fan_in, fan_out) = ...    low = -4*np.sqrt(6.0/(fan_in + fan_out)) # use 4 for sigmoid, 1 for tanh activation     high = 4*np.sqrt(6.0/(fan_in + fan_out))    return tf.Variable(tf.random_uniform(shape, minval=low, maxval=high, dtype=tf.float32))

回答：

根据He等人2015年的第15个方程，当使用ReLu时，一层的理论权重方差变为：

n*Var[W] = 2

其中n是层的大小。

如果你想使用输入层和输出层的合并方差，那么它变为：

(fan_in, fan_out) = ...low = -2*np.sqrt(1.0/(fan_in + fan_out))high = 2*np.sqrt(1.0/(fan_in + fan_out))

如果你使用TensorFlow，他们有一个variance_scaling_initializer，你可以设置factor变量和mode变量来控制你希望初始化的方式。

如果你使用这个初始器的默认参数factor=2.0，你将得到He等人2015年为ReLu激活建议的初始化方差。虽然你可以通过调整参数mode来获得略有不同的权重初始化方差。仅使用输入层：

tf.contrib.layers.variance_scaling_initializer(factor=2.0, mode='FAN_IN')

会给你以下结果：

(fan_in, fan_out) = ...low = -np.sqrt(2.0/fan_in)high = np.sqrt(2.0/fan_in)

使用输入层和输出层：

tf.contrib.layers.variance_scaling_initializer(factor=2.0, mode='FAN_AVG')

会给你以下结果：

(fan_in, fan_out) = ...low = -np.sqrt(4.0/(fan_in+fan_out)) = -2.0*np.sqrt(1.0/(fan_in+fan_out))high = np.sqrt(4.0/(fan_in+fan_out)) = 2.0*np.sqrt(1.0/(fan_in+fan_out))

仅使用输出层：

tf.contrib.layers.variance_scaling_initializer(factor=2.0, mode='FAN_AVG')

会给你以下结果：

(fan_in, fan_out) = ...low = -np.sqrt(2.0/fan_out)high = np.sqrt(2.0/fan_out)

学技术

手工制作的Xavier初始化器：在lrelu和relu中应使用哪些值

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复