AI中的一些术语让我感到困惑。反向传播中使用的导数函数是激活函数的导数还是损失函数的导数?
这些术语让我困惑:激活函数的导数,损失函数的偏导数??
我还是没有完全理解。
回答:
当你优化一个模型时,你会定义一个损失函数。这通常代表相对于某些训练数据的误差。
通常使用基于梯度的优化方法来最小化这个误差。常见的有随机梯度下降(SGD)及其相关方法(如Adam、Adagrad等)。
损失函数的梯度是由模型中每个权重的损失的偏导数组成的向量。
在每次迭代中,权重会沿着梯度的相反方向更新(记住我们是在最小化)。
我猜你可能会感到困惑的原因是由于链式法则,在计算损失函数的梯度时,需要对激活函数进行求导。但请记住,这是因为链式法则的缘故。