假设我有一大组文档,这些文档以关系表的形式表示,表中有以下列:
ID(唯一标识符) 标题(255个字符) 描述(5000个字符) 类别(预定义的元数据) 附加说明(1000个字符)
我想为文档表中的每一行添加一个或多个标签。这里的标签指的是一个词或一组词,用来告诉读者文档的主题是什么。
是否有数据挖掘/文本挖掘/机器学习技术或方法,可以在没有人工干预的情况下,帮助我为给定文档找到最合适的标签。
回答:
一种可能的简单方法:对于给定文档,计算每个词的TF-IDF值,并选择前N个词作为标签(或通过某个阈值筛选候选词)。在你的情况下,对标题和类别字段中的词使用经验提升系数是合理的。