我想将新闻文章分类到它所属的类别中。我有四类新闻,例如“科技、体育、政治和健康。”我为每个类别收集了大约50篇文档作为训练集
**训练数据对于分类来说足够吗?应该使用哪种算法进行分类?SVM,随机森林,Knn,??
我使用Scikit-learn http://scikit-learn.org/ [python] 库来完成我的任务
谢谢
回答:
解决这个问题的方法有很多,从条件随机场(CRFs)到随机森林都有。
鉴于你的训练数据有限,我建议使用高偏差的模型,比如线性SVM。开始时训练每个类别的一对多模型,并预测概率最高的类别。这将为你提供一个基准,以评估给定训练数据下问题的难度。