在Keras中,He normal和Xavier normal初始化器有什么区别?两者似乎都是基于输入数据的方差来初始化权重的。有什么直观的解释可以说明两者的区别吗?
回答:
总结来说,对于机器学习从业者来说,主要区别如下:
- He初始化方法对于使用ReLU激活函数的层效果更好。
- Xavier初始化方法对于使用sigmoid激活函数的层效果更好。
在Keras中,He normal和Xavier normal初始化器有什么区别?两者似乎都是基于输入数据的方差来初始化权重的。有什么直观的解释可以说明两者的区别吗?
回答:
总结来说,对于机器学习从业者来说,主要区别如下:
- He初始化方法对于使用ReLU激活函数的层效果更好。
- Xavier初始化方法对于使用sigmoid激活函数的层效果更好。