对于给定文档,寻找最合适的标签是否有数据挖掘/文本挖掘/机器学习技术?

假设我有一大组文档,这些文档以关系表的形式表示,表中有以下列:

    ID(唯一标识符)    标题(255个字符)    描述(5000个字符)    类别(预定义的元数据)    附加说明(1000个字符)

我想为文档表中的每一行添加一个或多个标签。这里的标签指的是一个词或一组词,用来告诉读者文档的主题是什么。

是否有数据挖掘/文本挖掘/机器学习技术或方法,可以在没有人工干预的情况下,帮助我为给定文档找到最合适的标签。


回答:

一种可能的简单方法:对于给定文档,计算每个词的TF-IDF值,并选择前N个词作为标签(或通过某个阈值筛选候选词)。在你的情况下,对标题和类别字段中的词使用经验提升系数是合理的。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注