反向传播算法在训练AND函数时陷入困境

以下是使用TensorFlow实现单神经元的AND函数的示例:

def tf_sigmoid(x):    return 1 / (1 + tf.exp(-x))data = [    (0, 0),    (0, 1),    (1, 0),    (1, 1),]labels = [    0,    0,    0,    1,]n_steps = 1000learning_rate = .1x = tf.placeholder(dtype=tf.float32, shape=[2])y = tf.placeholder(dtype=tf.float32, shape=None)w = tf.get_variable('W', shape=[2], initializer=tf.random_normal_initializer(), dtype=tf.float32)b = tf.get_variable('b', shape=[], initializer=tf.random_normal_initializer(), dtype=tf.float32)h = tf.reduce_sum(x * w) + boutput = tf_sigmoid(h)error = tf.abs(output - y)optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(error)sess.run(tf.initialize_all_variables())for step in range(n_steps):    for i in np.random.permutation(range(len(data))):        sess.run(optimizer, feed_dict={x: data[i], y: labels[i]})

有时候它运行得很完美,但在某些参数下它会陷入困境,无法学习。例如,使用以下初始参数时:

w = tf.Variable(initial_value=[-0.31199348, -0.46391705], dtype=tf.float32)b = tf.Variable(initial_value=-1.94877, dtype=tf.float32)

成本函数几乎不会有任何改善。我做错了什么,也许我应该调整参数的初始化方式?


回答:

你是不是少了一个 mean(error)

你的问题在于Sigmoid函数、成本函数和优化器的特定组合上。

别难过,据我所知,这个确切的问题让整个领域停滞了几年。

当你离中间值较远时,Sigmoid函数会变得平坦,而你使用的是相对较大的初始值,试着除以1000。

因此,你的绝对误差(或平方误差)也会变得平坦,而梯度下降优化器的步长与斜率成正比。

以下任何一种方法都可以解决这个问题:

使用交叉熵作为误差函数——它是凸函数。

使用更好的优化器,比如Adam,它的步长大小对斜率的依赖性较小。更多关于斜率一致性的信息。

额外提示:不要自己编写Sigmoid函数,使用tf.nn.sigmoid,这样可以减少NaN值的出现。

祝你玩得开心!

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注