使用机器学习进行作者归属分析

我正在进行一个机器学习的实践问题作为练习。我只需要帮助来表述我的问题。

我有20本著名老作者的书的文本。还有5本书在历史上一直被争论是否属于同一个作者。

我在考虑如何最好地表示这个问题。我在考虑使用词袋方法来找出作者使用的最重要的词汇。

我应该将其视为一个朴素贝叶斯(垃圾邮件/非垃圾邮件)问题,还是应该使用KNN分类(作者/非作者)来检测每份文档的类别?还有其他方法吗?


回答:

我认为朴素贝叶斯可以给你一些见解。另一种方法可以是,找出区分这些书的特征,例如
1. 词汇的复杂性,一些作家容易理解并使用常见词汇,我指的是逆文档频率(IDF)
2. 有些词在他那个时代可能根本不存在,比如“自拍”、“手机”等。

尝试找出很多这样的特征,也可以训练一个判别分类器。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注