回归在Caffe中的理论

有人知道Caffe中回归的理论吗?我理解我们有一个损失函数,但这个函数是应用于什么的呢?

我的意思是,对于带有损失的Softmax层,我们有一个Softmax函数,并应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里得损失的“Softmax函数”。有什么建议吗?我查看了Caffe层的解释,但那里只是提到使用平方误差和作为损失函数。


回答:

这与Caffe无关,而是更普遍的回归问题。

损失函数,通常以L(预测,真值)的形式出现,是一个分配一个标量(数字)的函数,你试图最小化这个函数以解决任务(即做出与真实值相似的预测)。

一般来说,在回归中,你根据某个函数f(x|theta)进行预测,其中theta是你函数的一组参数,例如,这些可能是神经网络的一组权重,或者线性模型的系数。因此,你的优化问题是

minimise_theta    L(f(X|theta), truth)

例如,对于L2损失(欧几里得距离),你得到

minimise_theta    SUM_i || f(x_i|theta) - truth_i ||^2                           ------------   -------                                |            |                                v            V                           prediction      true                           for point      value for                           x_i            point x_i

你寻找最佳theta的方式取决于所使用的优化器,它可能会对这个函数进行微分以寻找最小值,你可能还会使用一些元优化器(如遗传方法等)。

特别是对于Caffe和神经网络,f(x_i|theta)是你的神经网络,可以由多个模块(层,节点)组成,根据theta和x_i执行不同的操作。特别是Softmax没有参数,因此它不可训练,它只对你的预测进行归一化处理,但在Softmax下通常有一些可训练的模块(如线性层),这些模块根据上述优化问题进行调整。你寻找这样的参数,使得你在训练集上的损失最小化。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注