如何在反向传播中求softmax输出的导数

我刚开始学习机器学习，正在尝试创建一个简单的“库”，以便更多地了解神经网络。

我的问题是：根据我的理解，我必须根据每个层的激活函数求它们的导数，这样我才能计算它们的delta值并调整它们的权重等…

对于ReLU、sigmoid、tanh，在Java中实现它们非常简单（顺便说一下，我用的就是Java）

但是要从输出回到输入，我必须从（显然）输出开始，它的激活函数是softmax。

那么我是否也需要求输出层的导数，还是只适用于其他层？

如果我确实需要求导数，我该如何在Java中实现它？谢谢。

我读了很多关于softmax算法导数解释的页面，但对我来说它们真的很复杂，正如我所说，我刚开始学习机器学习，我不想直接使用现成的库，所以我来这里了。

这是我存储激活函数的类。

public class ActivationFunction {    public static double tanh(double val) {        return Math.tanh(val);    }    public static double sigmoid(double val) {        return 1 / 1 + Math.exp(-val);    }    public static double relu(double val) {        return Math.max(val, 0);    }    public static double leaky_relu(double val) {        double result = 0;        if (val > 0) result = val;        else result = val * 0.01;        return result;    }    public static double[] softmax(double[] array) {        double max = max(array);        for (int i = 0; i < array.length; i++) {            array[i] = array[i] - max;        }        double sum = 0;        double[] result = new double[array.length];        for (int i = 0; i < array.length; i++) {            sum += Math.exp(array[i]);        }        for (int i = 0; i < result.length; i++) {            result[i] = Math.exp(array[i]) / sum;        }        return result;    }    public static double dTanh(double x) {        double tan = Math.tanh(x);        return (1 / tan) - tan;    }    public static double dSigmoid(double x) {        return x * (1 - x);    }    public static double dRelu(double x) {        double result;        if (x > 0) result = 1;        else result = 0;        return result;    }    public static double dLeaky_Relu(double x) {        double result;        if (x > 0) result = 1;        else if (x < 0) result = 0.01;        else result = 0;        return result;    }    private static double max(double[] array) {        double result = Double.MIN_VALUE;        for (int i = 0; i < array.length; i++) {            if (array[i] > result) result = array[i];        }        return result;    }}

我希望得到问题的答案：我是否需要softmax的导数？如果需要，我该如何实现它？

回答：

对你第一个问题的简短回答是是的，你需要计算softmax的导数。

更长的回答将涉及一些计算，因为为了实现反向传播，你需要通过一阶优化算法来训练你的网络，该算法需要计算成本函数相对于权重的偏导数，即：

然而，由于你使用softmax作为最后一层，很可能你在训练神经网络时会优化一个交叉熵成本函数，即：

其中t_j是目标值，a_j是类j的softmax结果。

Softmax本身代表了n个类上的概率分布：

其中所有z都是前一层激活函数结果与相应权重的简单和：

其中n是层的数量，i是前一层的神经元数量，j是我们的softmax层的神经元数量。

因此，为了相对于这些权重中的任何一个求偏导数，应该计算：

其中第二个偏导数∂a_k/∂z_j确实是softmax的导数，可以按以下方式计算：

但是如果你尝试计算上述成本函数相对于权重的导数的求和项，你将得到：

所以在这种特定情况下，计算的最终结果非常简洁，代表了网络输出与目标值之间的简单差异，就是这样，即，你需要计算这个偏导数的求和项，只需：

所以为了回答你的第二个问题，你可以将交叉熵成本函数相对于输出激活（即softmax）的偏导数计算与输出激活相对于z_j的偏导数计算结合起来，这将导致一个简短而清晰的实现，如果你使用的是非向量化形式，它看起来会像这样：

for (int i = 0; i < lenOfClasses; ++i){    dCdz[i] = t[i] - a[i];}

然后你可以使用dCdz来对神经网络的其他层进行反向传播。

学技术

如何在反向传播中求softmax输出的导数

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复