聚类或其他实现通用垃圾信息检测的机制

在正常情况下,我之前尝试过使用朴素贝叶斯和线性SVM来对某些特定类型的评论进行分类,这些评论与我有权访问的、手动标记并分类为垃圾信息或正常信息的训练数据相关。

现在我被告知要检查是否有任何方法可以在没有训练数据的情况下将评论分类为垃圾信息。比如说,通过对数据进行聚类,将其标记为垃圾信息或正常信息,无论数据是什么类型。

我需要了解解决这个问题的某些方法,以及实现这一目标的有效途径是什么。

我还在学习和实验中。任何帮助都将不胜感激


回答:

我能找到的最佳资料是这篇研究工作,其中提到了主动学习。因此,我想到的方法是:首先进行Kmeans聚类,得到中心聚类(假设有5个聚类,我选择了按长度降序排列的前3个聚类),并从每个聚类中抽取1000条消息。然后,我会让用户对这些消息进行标记。接下来的步骤是使用标记的数据进行逻辑回归训练,并获取未标记数据的概率。如果概率接近0.5或在0.4到0.6之间,这意味着结果不确定,我会将其标记并继续这个过程。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注