我有活动的名称和描述,我想找出活动的类别(例如,是否是娱乐活动、政治活动或其他)。我在网上搜索了一些自然语言处理技术,如潜在Dirichlet分配,但我看不出如何在我的情况下使用它。尝试通过为每个类别预定义关键词,然后查询文本并根据每个类别的关键词数量来决定分类是否是个好主意?有人能给我一些关于我问题的提示吗?非常感谢
回答:
你可以采取的一种方法是从简单开始,使用贝叶斯分类器来分析/分类你的数据。
我会通过将你的数据集分成训练数据集和非训练数据集来处理这个问题。然后,手动审查每个活动并将其分类为某类活动。使用这个训练数据集来对剩余数据运行你的分类器。
这对于大量活动类型可能不是理想的解决方案,但这可能是你开始解决问题的一种方式。