回归还是分类?

当使用神经网络来预测制造过程中的错误百分比时,如果有一些输入因素是我们无法控制的(随机的),是使用回归还是分类更好?

例如,

输出可以是错误率,从-900%到+900%不等,平均和中位数错误率为9%(这是一个肥尾钟形曲线)。我们应该使用回归来尝试预测错误量,还是将错误分类为从中位数的标准差,例如900%是中位数的5个标准差。因此,我们将有11个类别,从-5到+5


回答:

输出取决于你的使用场景,远超过数据本身。一旦这个模型被训练,你将通过提供一个输入向量,一系列输入来使用它。你的模型将产生一个输出数字。你计划如何使用这个输出数字?为了讨论起见,让我们考虑两个在正侧部分的相似预测。

你的输出要么是+2,+2(分类),要么是+350%,+380%(回归)。

你需要对这两个输出做出相同的反应吗?大致在+2的一切是否接受相同的处理——如果是的话,你有明确的理由使用分类——还是根据相对大小有一些细微的差异——这表明需要一个回归模型。

另外,你在考虑哪些模型类型?如果你已经选择了一个相对简单的ANN,那么你不妨将其设为回归模型,并在预测中获得额外的“准确性”。如果你发现某些非线性函数或类别的简单性(相对于为回归方程尝试各种非线性项)有优势,那么就使用分类方法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注