能否在朴素贝叶斯文本分类算法中加入作者信息？

我正在进行一个文本分类项目，试图为国会记录中的演讲分配主题分类。

使用国会法案项目（http://congressionalbills.org/）的主题代码，我已经标记了提及特定法案的演讲，归属于该法案的主题。我将这些作为模型的“训练集”。

我有一个“普通”的朴素贝叶斯分类器，运行得还不错，但我总觉得如果能加入演讲国会议员的信息（例如，某些成员比其他人更有可能谈论外交政策），可以提高算法的准确性。

一种可能性是用演讲者的先前演讲来替换NB分类器中的先验概率（通常定义为训练集中具有给定分类的文档的比例）。

这值得追求吗？是否有现有的方法遵循了这种逻辑？我对基于潜在 Dirichlet 分配模型的“作者-主题模型”有一点了解，但我喜欢NB模型的简单性。

回答：

无需修改任何内容，只需将这些信息添加到你的Naive Bayes中，它就会正常工作。

正如之前在评论中提到的 – 不要更改任何先验概率 – 先验概率是P(class)，这与实际特征无关。

只需在你的计算中添加另一个对应于作者身份的特征，例如“author:AUTHOR”，并像往常一样训练朴素贝叶斯，即计算每个class和AUTHOR的P(class|author:AUTHOR)，并在后续的分类过程中使用它。如果你当前的表示是词袋模型，只需添加一个形式为“author:AUTHOR”的“人造”词即可。

另一种选择是为每个作者训练独立的分类器，这将捕捉到特定于个人的演讲类型，例如 – 一个人只有在谈论“自然”时才使用很多“环境”这个词，而另一个人只是喜欢在每一次演讲中都加上这个词，“哦，在我们当地的环境中…”。独立的NB将捕捉到这些现象。

学技术

能否在朴素贝叶斯文本分类算法中加入作者信息？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复