有人知道Caffe中回归的理论吗?我理解我们有一个损失函数,但这个函数是应用于什么的呢?
我的意思是,对于带有损失的Softmax层,我们有一个Softmax函数,并应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里得损失的“Softmax函数”。有什么建议吗?我查看了Caffe层的解释,但那里只是提到使用平方误差和作为损失函数。
回答:
这与Caffe无关,而是更普遍的回归问题。
损失函数,通常以L(预测,真值)的形式出现,是一个分配一个标量(数字)的函数,你试图最小化这个函数以解决任务(即做出与真实值相似的预测)。
一般来说,在回归中,你根据某个函数f(x|theta)进行预测,其中theta是你函数的一组参数,例如,这些可能是神经网络的一组权重,或者线性模型的系数。因此,你的优化问题是
minimise_theta L(f(X|theta), truth)
例如,对于L2损失(欧几里得距离),你得到
minimise_theta SUM_i || f(x_i|theta) - truth_i ||^2 ------------ ------- | | v V prediction true for point value for x_i point x_i
你寻找最佳theta的方式取决于所使用的优化器,它可能会对这个函数进行微分以寻找最小值,你可能还会使用一些元优化器(如遗传方法等)。
特别是对于Caffe和神经网络,f(x_i|theta)是你的神经网络,可以由多个模块(层,节点)组成,根据theta和x_i执行不同的操作。特别是Softmax没有参数,因此它不可训练,它只对你的预测进行归一化处理,但在Softmax下通常有一些可训练的模块(如线性层),这些模块根据上述优化问题进行调整。你寻找这样的参数,使得你在训练集上的损失最小化。