交叉熵损失突然增加到无穷大

我正在尝试从一篇研究论文中复制一个深度卷积神经网络。我已经实现了架构,但在10个epoch之后,我的交叉熵损失突然增加到无穷大。这在下面的图表中可以看到。问题发生后,您可以忽略准确率的变化。

这里是包含架构图片的GitHub存储库

经过一些研究后,我认为使用AdamOptimizer或relu可能是一个问题。

x = tf.placeholder(tf.float32, shape=[None, 7168])y_ = tf.placeholder(tf.float32, shape=[None, 7168, 3])#许多卷积和Relus被省略final = tf.reshape(final, [-1, 7168])keep_prob = tf.placeholder(tf.float32)W_final = weight_variable([7168,7168,3])b_final = bias_variable([7168,3])final_conv = tf.tensordot(final, W_final, axes=[[1], [1]]) + b_finalcross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=final_conv))train_step = tf.train.AdamOptimizer(1e-5).minimize(cross_entropy)correct_prediction = tf.equal(tf.argmax(final_conv, 2), tf.argmax(y_, 2))accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

编辑如果有人感兴趣,解决方案是我基本上输入了错误的数据。


回答:

解决方案:控制解空间。这可能意味着在训练时使用较小的数据集,可能是使用较少的隐藏节点,可能是以不同的方式初始化权重和偏置。您的模型达到了损失未定义的点,这可能是由于梯度未定义或final_conv信号引起的。

原因:有时无论如何都会达到数值不稳定性。最终添加机器epsilon来防止除以零(此处的交叉熵损失)也无济于事,因为即使这样,数字也无法准确地用您使用的精度表示。(参考:https://en.wikipedia.org/wiki/Round-off_errorhttps://floating-point-gui.de/basic/

考虑因素:
1) 在调整epsilon时,请确保与您的数据类型保持一致(使用您使用的精度的机器epsilon,在您的例子中,float32是1e-6 引用:https://en.wikipedia.org/wiki/Machine_epsilonpython numpy machine epsilon)。

2) 以防其他人阅读时感到困惑:Adamoptimizer构造函数中的值是学习率,但您可以设置epsilon值(引用:How does paramater epsilon affects AdamOptimizer?https://www.tensorflow.org/api_docs/python/tf/train/AdamOptimizer

3) Tensorflow的数值不稳定性是存在的,而且很难避免。是的,有tf.nn.softmax_with_cross_entropy,但这太具体了(如果您不想使用softmax怎么办?)。参考Vahid Kazemi的《Effective Tensorflow》以获得有见地的解释:https://github.com/vahidk/EffectiveTensorflow#entropy

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注