当使用神经网络来预测制造过程中的错误百分比时,如果有一些输入因素是我们无法控制的(随机的),是使用回归还是分类更好?
例如,
输出可以是错误率,从-900%到+900%不等,平均和中位数错误率为9%(这是一个肥尾钟形曲线)。我们应该使用回归来尝试预测错误量,还是将错误分类为从中位数的标准差,例如900%是中位数的5个标准差。因此,我们将有11个类别,从-5到+5
回答:
输出取决于你的使用场景,远超过数据本身。一旦这个模型被训练,你将通过提供一个输入向量,一系列输入来使用它。你的模型将产生一个输出数字。你计划如何使用这个输出数字?为了讨论起见,让我们考虑两个在正侧部分的相似预测。
你的输出要么是+2,+2(分类),要么是+350%,+380%(回归)。
你需要对这两个输出做出相同的反应吗?大致在+2的一切是否接受相同的处理——如果是的话,你有明确的理由使用分类——还是根据相对大小有一些细微的差异——这表明需要一个回归模型。
另外,你在考虑哪些模型类型?如果你已经选择了一个相对简单的ANN,那么你不妨将其设为回归模型,并在预测中获得额外的“准确性”。如果你发现某些非线性函数或类别的简单性(相对于为回归方程尝试各种非线性项)有优势,那么就使用分类方法。