对于给定文档,寻找最合适的标签是否有数据挖掘/文本挖掘/机器学习技术?

假设我有一大组文档,这些文档以关系表的形式表示,表中有以下列:

    ID(唯一标识符)    标题(255个字符)    描述(5000个字符)    类别(预定义的元数据)    附加说明(1000个字符)

我想为文档表中的每一行添加一个或多个标签。这里的标签指的是一个词或一组词,用来告诉读者文档的主题是什么。

是否有数据挖掘/文本挖掘/机器学习技术或方法,可以在没有人工干预的情况下,帮助我为给定文档找到最合适的标签。


回答:

一种可能的简单方法:对于给定文档,计算每个词的TF-IDF值,并选择前N个词作为标签(或通过某个阈值筛选候选词)。在你的情况下,对标题和类别字段中的词使用经验提升系数是合理的。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注