在2层神经网络中更新权重

我正在尝试使用类似于下图的神经网络来模拟XOR门:

我明白每个神经元都有一定数量的权重和偏置。我使用Sigmoid函数来决定每个状态下神经元是否应该激活（由于使用的是Sigmoid函数而不是阶跃函数，我在这里宽泛地使用“激活”一词，因为它实际上输出的是实数值）。

我已经成功地运行了前馈部分的模拟，现在我想使用反向传播算法来更新权重并训练模型。问题是，对于x1和x2的每个值，都会有一个单独的结果（总共有4种不同的组合），在不同的输入对下，可以计算出不同的误差距离（期望输出与实际结果之间的差异），随后将获得一组不同的权重更新。这意味着通过使用反向传播，我们将为每个单独的输入对获得4组不同的权重更新。

我们应该如何决定正确的权重更新呢？

假设我们对单个输入对重复进行反向传播直到收敛，但如果我们选择另一对输入，可能会收敛到一组不同的权重呢？

回答：

我明白每个神经元都有一定的权重。我使用Sigmoid函数来决定每个状态下神经元是否应该激活。

你实际上并不会“决定”这个，典型的多层感知器（MLP）并不会“激活”，它们输出的是实数值。确实有一些神经网络会“激活”（如RBM），但这是一个完全不同的模型。

这意味着通过使用反向传播，我们将为每个输入对获得4组不同的权重更新。

这实际上是一个特性。让我们从头开始。你试图在整个训练集上最小化某个损失函数（在你的情况下是4个样本），其形式为：

L(theta) = SUM_i l(f(x_i), y_i)

其中l是某个损失函数，f(x_i)是你当前的预测，y_i是真实值。你通过梯度下降来实现这一点，因此你试图计算L的梯度并逆向移动

grad L(theta) = grad SUM_i l(f(x_i), y_i) = SUM_i grad l(f(x_i), y_i)

你现在称之为“单次更新”的实际上是grad l(f(x_i) y_i)，对于单个训练对(x_i, y_i)。通常你不会使用这个，而是会求和（或取平均）整个数据集的更新，因为这是你真正的梯度。然而，在实践中，这可能在计算上不可行（训练集通常相当大），此外，经验表明，训练中的更多“噪声”通常更好。因此，另一种学习技术出现了，称为随机梯度下降，简而言之，它表明在一些轻微的假设下（如加性损失函数等），你实际上可以独立地进行你的“小更新”，你仍然会收敛到局部最小值！换句话说——你可以以随机顺序“逐点”进行你的更新，你仍然会学习。每次得到的解决方案会相同吗？不会。但这对于计算整个梯度也是如此——非凸函数的优化几乎总是非确定性的（你找到的是某个局部解，而不是全局解）。

学技术

在2层神经网络中更新权重

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复