这可能是一个抽象的问题,但我总是遇到这种类型的问题,而且它不断地出现在我面前。
我爬取了数据(例如:关于塔塔钢铁的新闻文章),提取了内容,手动阅读了每个链接的内容,并将它们分类为财务、运营、可持续性等类别。
然后我制作了tf-idf数据框架作为分类器模型的特征。
我想训练模型来分类这些文章。我只剩下使用tf-idf特征的SVM或逻辑回归两种选择。
有没有更好的方法来分类文本数据?除了制作tf-idf之外,是否有更好的方法,因为将句子分解成词作为特征可能会丢失信息(句子的语境含义)。
有什么算法可以帮助我改进文本数据的分类吗?
回答:
有几种商业API以及用于文本分类任务的框架,它们在tf-idf上的SVM/逻辑回归基础上进行了改进。它们在分类时包括了句子的语义/上下文/词序。深度神经网络在这项任务中非常有用,如果你想从头开始构建一个神经网络,你可以研究LSTM和RNN文本分类。对于现有的且更容易上手的,你可以看看Spacy和FastText。两者都有用于分类模型的标记和训练数据的示例