区分tf-idf文档相似度和朴素贝叶斯分类器

如何在tf-idf文档相似度和朴素贝叶斯分类器之间做出选择?我不明白该使用哪一个,有没有方法可以识别哪种算法适合什么目的?


回答:

你不需要选择。

词频-逆文档频率(TF-IDF)是一种为特征分配数值的方法。它(大部分情况下)与用于分类数据点的算法无关。

我假设你所说的相似度是指余弦相似度和最近邻分类。

如果你在进行分类任务,你会选择看起来能提供最佳准确率(或最符合你的要求)的方法。在处理非常大的数据集时,计算数据集中每个文档的余弦相似度将变得不可行。

如果你指的是使用余弦相似度来对结果进行排序(查找与Q相似的文档),那么这里没有“选择”。这是一个排序任务,而朴素贝叶斯是用于分类的。

在现实生活中,这两种方法都不是特别好。你只会使用它们来初步了解一个任务的难易程度,通过使用这些简单且直接的方法。如果一种“简单”方法的表现明显优于其他方法,你可能会考虑尝试与最佳简单方法相关的更高级的模型。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注