3个图表(i)、(ii)、(iii)展示了具有2个数值属性(x轴和y轴)和一个具有两个类别(圆形和方形)的目标属性的训练集。
我现在想知道数据挖掘算法(最近邻、朴素贝叶斯和决策树)能多好地解决每个分类问题。
我认为朴素贝叶斯(基于属性不相关的朴素假设)在解决第二个问题上比(i)和(iii)更好,因为在这里数值属性之间倾向于更加独立。
回答:
如果你想在这些场景中使用每种给定的方法:
第一个问题可以用决策树方法解决得最好,因为类别可以沿轴线分开。我的意思是在x轴上画一条垂直线,将值分成左右两侧,再在y轴上画一条垂直线,这样你会看到类别会被很好地分开。
第二个问题可以被视为朴素贝叶斯问题,正如你所提到的。
第三个问题可以用k最近邻方法解决。方形类别在坐标系中位置接近,圆形类别也可以带有一些误差被分类。