如何使用朴素贝叶斯算法对未知记录进行分类

我正在尝试对一些实时数据应用朴素贝叶斯算法。我了解贝叶斯的规则,但不确定如何在我的数据上实现。我的数据如下所示。我的数据总共有两个标签,分别是“ok”和“fraud”,测试数据标记为“unkn”。我需要通过应用朴素贝叶斯算法将所有标记为“unkn”的记录分类为“ok”或“fraud”。我该如何实现这一点?请有人帮助我。

1,v1,p1,182,1665,unkn2,v2,p1,3072,8780,ok3,v3,p1,20393,76990,ok4,v4,p1,112,1100,fraud5,v3,p1,6164,20260,unkn6,v5,p2,104,1155,ok7,v6,p2,350,5680,unkn8,v7,p2,200,4010,ok9,v8,p2,233,2855,unkn10,v9,p2,118,1175,unkn

贝叶斯规则如下:

未知记录为“ok”的后验概率 = “ok”的先验概率 * 已知为“ok”的未知记录的可能性。

未知记录为“fraud”的后验概率 = “fraud”的先验概率 * 已知为“fraud”的未知记录的可能性。


回答:

我假设行1,v1,p1,182,1665,unkn的解释如下:

  • 1, v1 = 一些标识符
  • p1,182,1665 = 数据点的特征
  • unkn = 标签,在这种情况下是未知

基于这种标记,你的训练数据包括所有标记为okfraud的行,而你的测试数据是剩下的部分。你需要计算先验概率和条件可能性:

  1. ok的先验概率是训练数据中ok示例的比例。同理适用于fraud
  2. 对于每个特征f,如v1p1,已知为ok的可能性是训练数据中包含该特征的ok示例的比例。例如,p1在4个ok示例中有2个,概率为0.5。

对于每个示例,将步骤2中计算的所有特征的概率相乘。将结果乘以步骤1中的概率,以获得你的示例属于特定类的(联合)概率。

注意事项:

  • 将概率相乘最终会导致下溢。你可能希望改为加那些概率的对数。
  • 我描述的算法仅适用于离散值特征。你似乎有上面的连续值特征(例如182),需要转换为离散值(例如通过分箱)或者你需要想出其他方法来估计步骤2中的条件概率。谷歌搜索连续值朴素贝叶斯

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注