我在解决一个机器学习问题,其中目标变量是数值的,比如一个城市的污染水平。但客户对预测实际污染物的数量不感兴趣,他们只想知道根据商定的阈值,污染水平是高还是低。(如果PM2.5水平超过200,则为高,否则为低)。
我应该将其视为回归问题,并将数值的PM2.5水平作为目标,还是将其视为分类问题,根据阈值创建一个高/低污染水平的特征,并使用该二元变量作为目标?这两种方法的优缺点分别是什么?这会对准确性产生什么影响,如果有的话?
回答:
如果您的客户对知道实际数值不感兴趣,我建议采用分类模型。
您可以使用这种方法将目标变量转换为二元值,并沿用分类路径。
分类模型有更高的机会获得更好的准确性,因为模型更专注于分类边界,而回归模型可能会偏向于试图正确预测异常值/噪声数据点!