在决策树中,有哪些有效的策略可以应对噪声?
在我的训练数据中,
我有两条记录属性相同但分类结果不同。
- 女性,奢侈品,LV,是
- 女性,奢侈品,LV,否
根据我的阅读,建议返回这两个记录中多数的分类结果。
但这会在进行预测时引发问题,因为我的预测输出应该要么是“是”要么是“否”。
因此,正在尝试找出在这种情况下我可以使用的预测策略。
谢谢你。
回答:
当类别预测不确定时:
- 最简单(也是常见)的方法是预测多数类别。
- 获取更多信息。例如,包含额外的属性(如果可用)或获取更多的训练样本(如果可用)。
- 删除一些信息。目的是尽可能多地去除噪声源,同时尽可能多地保留预测信息。常见做法是删除无用的属性。在树结构中,可以通过修剪来实现。最终,你可以删除异常值(如错误测量的样本),但你必须知道哪个样本是异常值。