无监督朴素贝叶斯 – 它是如何工作的?

据我所知,要实现无监督的朴素贝叶斯,我们为每个实例的每个类别分配随机概率,然后通过普通的朴素贝叶斯算法运行。我理解的是,通过每次迭代,随机估计会变得更好,但我无论如何都无法准确弄清楚这是如何工作的。

有谁能在这件事上提供一些见解吗?


回答:

我在无监督学习中见到的朴素贝叶斯的变体基本上是应用高斯混合模型(GMM,也称为期望最大化或EM)来确定数据中的聚类。

在这种设置中,假设数据可以被分类,但类别是隐藏的。问题在于通过为每个类别拟合一个高斯分布来确定最可能的类别。朴素贝叶斯的假设定义了要使用的特定概率模型,其中属性在给定类别的情况下是条件独立的。

来自Jose A. Gamez的论文“无监督朴素贝叶斯用于混合截断指数的数据聚类”

从前面的设置来看,基于概率模型的聚类被建模为模型的混合(见例如(Duda等人,2001年)),其中隐藏类别变量的状态对应于混合的组件(聚类的数量),使用多项分布来建模离散变量,而使用高斯分布来建模数值变量。通过这种方式,我们转向从无标签数据中学习的问题,通常使用EM算法(Dempster等人,1977年)来执行学习任务,当图形结构是固定的时,而当图形结构也需要被发现时(Pena等人,2000年),使用结构EM(Friedman,1998年)。在本文中,我们专注于具有固定结构的最简单模型,即所谓的朴素贝叶斯结构(图1),其中类别是唯一的根变量,并且所有属性在给定类别的情况下是条件独立的。

另见此讨论在CV.SE上。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注