朴素贝叶斯分类法的简单解释

我发现理解朴素贝叶斯分类法的过程有些困难,我想知道是否有人能用简单的逐步英语解释一下。我明白它是通过发生次数的比较来计算概率的,但我不知道训练数据与实际数据集是如何关联的。

请解释训练集在其中的作用。我在这里给出一个非常简单的例子,比如香蕉

training set---round-redround-orangeoblong-yellowround-reddataset----round-redround-orangeround-redround-orangeoblong-yellowround-redround-orangeoblong-yellowoblong-yellowround-red

回答:

我理解你的问题分为两部分,第一部分是你需要更好地理解朴素贝叶斯分类器,第二部分是关于训练集的困惑。

一般来说,所有机器学习算法都需要为监督学习任务(如分类、预测等)或无监督学习任务(如聚类)进行训练。

在训练步骤中,算法会使用特定的输入数据集(训练集)进行学习,以便以后可以对未知输入(它们之前从未见过)进行测试,并根据它们的学习进行分类或预测(在监督学习的情况下)。这是大多数机器学习技术(如神经网络、支持向量机、贝叶斯等)的基础。

因此,在一个一般的机器学习项目中,你需要将输入集划分为开发集(训练集 + 开发测试集)和测试集(或评估集)。记住,你的基本目标是让系统学习并对开发集或测试集中从未见过的新输入进行分类。

测试集通常与训练集具有相同的格式。然而,测试集与训练集必须是不同的:如果我们简单地重用训练集作为测试集,那么一个仅仅记住输入而没有学会如何泛化到新例子的模型将会得到误导性地高分数。

一般来说,例如,我们可以使用70%的数据作为训练集案例。还要记住,将原始集随机划分为训练集和测试集。

现在我来回答你关于朴素贝叶斯的另一个问题。

为了演示朴素贝叶斯分类的概念,请考虑下面的例子:

enter image description here

如图所示,对象可以被分类为GREENRED。我们的任务是根据当前存在的对象,对新到达的案例进行分类,即决定它们属于哪个类别标签。

由于GREEN对象的数量是RED对象的两倍,因此合理地认为一个新的案例(尚未观察到)属于GREEN的可能性是RED的两倍。在贝叶斯分析中,这种信念被称为先验概率。先验概率基于之前的经验,在本例中是GREENRED对象的百分比,通常用于在事件实际发生之前预测结果。

因此,我们可以写出:

GREEN的先验概率绿色对象的数量 / 总对象数量

RED的先验概率红色对象的数量 / 总对象数量

由于总共有60个对象,其中40个是GREEN20个是RED,我们对类别成员的先验概率是:

GREEN的先验概率40 / 60

RED的先验概率20 / 60

在我们制定了先验概率之后,我们现在准备对一个新对象(下图中的WHITE圆圈)进行分类。由于对象聚集得很好,合理地假设在X附近的GREEN(或RED)对象越多,新案例属于该特定颜色的可能性就越大。为了衡量这种可能性,我们在X周围画一个圆圈,包含一定数量(预先选择)的点,不考虑它们的类别标签。然后我们计算圆圈中属于每个类别标签的点的数量。由此我们计算出可能性:

enter image description here

enter image description here

从上面的插图中可以清楚地看出,X给定GREEN的可能性小于X给定RED的可能性,因为圆圈包含了1GREEN对象和3RED对象。因此:

enter image description here

enter image description here

尽管先验概率表明X可能属于GREEN(因为GREEN的数量是RED的两倍),但可能性表明情况并非如此;X的类别成员是RED(因为在X附近的RED对象比GREEN对象多)。在贝叶斯分析中,最终分类是通过结合两种信息来源,即先验概率和可能性,形成后验概率,使用所谓的贝叶斯规则(以托马斯·贝叶斯牧师1702-1761命名)来生成的。

enter image description here

最后,我们将X分类为RED,因为它的类别成员达到了最大的后验概率。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注