我发现理解朴素贝叶斯分类法的过程有些困难,我想知道是否有人能用简单的逐步英语解释一下。我明白它是通过发生次数的比较来计算概率的,但我不知道训练数据与实际数据集是如何关联的。
请解释训练集在其中的作用。我在这里给出一个非常简单的例子,比如香蕉
training set---round-redround-orangeoblong-yellowround-reddataset----round-redround-orangeround-redround-orangeoblong-yellowround-redround-orangeoblong-yellowoblong-yellowround-red
回答:
我理解你的问题分为两部分,第一部分是你需要更好地理解朴素贝叶斯分类器,第二部分是关于训练集的困惑。
一般来说,所有机器学习算法都需要为监督学习任务(如分类、预测等)或无监督学习任务(如聚类)进行训练。
在训练步骤中,算法会使用特定的输入数据集(训练集)进行学习,以便以后可以对未知输入(它们之前从未见过)进行测试,并根据它们的学习进行分类或预测(在监督学习的情况下)。这是大多数机器学习技术(如神经网络、支持向量机、贝叶斯等)的基础。
因此,在一个一般的机器学习项目中,你需要将输入集划分为开发集(训练集 + 开发测试集)和测试集(或评估集)。记住,你的基本目标是让系统学习并对开发集或测试集中从未见过的新输入进行分类。
测试集通常与训练集具有相同的格式。然而,测试集与训练集必须是不同的:如果我们简单地重用训练集作为测试集,那么一个仅仅记住输入而没有学会如何泛化到新例子的模型将会得到误导性地高分数。
一般来说,例如,我们可以使用70%的数据作为训练集案例。还要记住,将原始集随机划分为训练集和测试集。
现在我来回答你关于朴素贝叶斯的另一个问题。
为了演示朴素贝叶斯分类的概念,请考虑下面的例子:
如图所示,对象可以被分类为GREEN
或RED
。我们的任务是根据当前存在的对象,对新到达的案例进行分类,即决定它们属于哪个类别标签。
由于GREEN
对象的数量是RED
对象的两倍,因此合理地认为一个新的案例(尚未观察到)属于GREEN
的可能性是RED
的两倍。在贝叶斯分析中,这种信念被称为先验概率。先验概率基于之前的经验,在本例中是GREEN
和RED
对象的百分比,通常用于在事件实际发生之前预测结果。
因此,我们可以写出:
GREEN
的先验概率:绿色对象的数量 / 总对象数量
RED
的先验概率:红色对象的数量 / 总对象数量
由于总共有60
个对象,其中40
个是GREEN
,20
个是RED
,我们对类别成员的先验概率是:
GREEN
的先验概率:40 / 60
RED
的先验概率:20 / 60
在我们制定了先验概率之后,我们现在准备对一个新对象(下图中的WHITE
圆圈)进行分类。由于对象聚集得很好,合理地假设在X附近的GREEN
(或RED
)对象越多,新案例属于该特定颜色的可能性就越大。为了衡量这种可能性,我们在X周围画一个圆圈,包含一定数量(预先选择)的点,不考虑它们的类别标签。然后我们计算圆圈中属于每个类别标签的点的数量。由此我们计算出可能性:
从上面的插图中可以清楚地看出,X
给定GREEN
的可能性小于X
给定RED
的可能性,因为圆圈包含了1
个GREEN
对象和3
个RED
对象。因此:
尽管先验概率表明X
可能属于GREEN
(因为GREEN
的数量是RED
的两倍),但可能性表明情况并非如此;X
的类别成员是RED
(因为在X
附近的RED
对象比GREEN
对象多)。在贝叶斯分析中,最终分类是通过结合两种信息来源,即先验概率和可能性,形成后验概率,使用所谓的贝叶斯规则(以托马斯·贝叶斯牧师1702-1761命名)来生成的。
最后,我们将X分类为RED
,因为它的类别成员达到了最大的后验概率。