无监督朴素贝叶斯 – 它是如何工作的?

据我所知,要实现无监督的朴素贝叶斯,我们为每个实例的每个类别分配随机概率,然后通过普通的朴素贝叶斯算法运行。我理解的是,通过每次迭代,随机估计会变得更好,但我无论如何都无法准确弄清楚这是如何工作的。

有谁能在这件事上提供一些见解吗?


回答:

我在无监督学习中见到的朴素贝叶斯的变体基本上是应用高斯混合模型(GMM,也称为期望最大化或EM)来确定数据中的聚类。

在这种设置中,假设数据可以被分类,但类别是隐藏的。问题在于通过为每个类别拟合一个高斯分布来确定最可能的类别。朴素贝叶斯的假设定义了要使用的特定概率模型,其中属性在给定类别的情况下是条件独立的。

来自Jose A. Gamez的论文“无监督朴素贝叶斯用于混合截断指数的数据聚类”

从前面的设置来看,基于概率模型的聚类被建模为模型的混合(见例如(Duda等人,2001年)),其中隐藏类别变量的状态对应于混合的组件(聚类的数量),使用多项分布来建模离散变量,而使用高斯分布来建模数值变量。通过这种方式,我们转向从无标签数据中学习的问题,通常使用EM算法(Dempster等人,1977年)来执行学习任务,当图形结构是固定的时,而当图形结构也需要被发现时(Pena等人,2000年),使用结构EM(Friedman,1998年)。在本文中,我们专注于具有固定结构的最简单模型,即所谓的朴素贝叶斯结构(图1),其中类别是唯一的根变量,并且所有属性在给定类别的情况下是条件独立的。

另见此讨论在CV.SE上。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注