聚类或其他实现通用垃圾信息检测的机制

在正常情况下，我之前尝试过使用朴素贝叶斯和线性SVM来对某些特定类型的评论进行分类，这些评论与我有权访问的、手动标记并分类为垃圾信息或正常信息的训练数据相关。

现在我被告知要检查是否有任何方法可以在没有训练数据的情况下将评论分类为垃圾信息。比如说，通过对数据进行聚类，将其标记为垃圾信息或正常信息，无论数据是什么类型。

我需要了解解决这个问题的某些方法，以及实现这一目标的有效途径是什么。

我还在学习和实验中。任何帮助都将不胜感激

回答：

我能找到的最佳资料是这篇研究工作，其中提到了主动学习。因此，我想到的方法是：首先进行Kmeans聚类，得到中心聚类（假设有5个聚类，我选择了按长度降序排列的前3个聚类），并从每个聚类中抽取1000条消息。然后，我会让用户对这些消息进行标记。接下来的步骤是使用标记的数据进行逻辑回归训练，并获取未标记数据的概率。如果概率接近0.5或在0.4到0.6之间，这意味着结果不确定，我会将其标记并继续这个过程。

学技术

聚类或其他实现通用垃圾信息检测的机制

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复