我正在构建一个文本分类器,它应该能够给出文档属于某些类别的概率(例如,80% 是小说,30% 是市场营销等)。
我认为Libsvm可以通过“predict”方法实现这一点,但问题是我需要测试大约20个类别。此外,我有几百份文档可以用于训练。
问题在于训练文件的大小达到了1 GB到2 GB,这使得Libsvc变得非常慢。
这个问题如何解决?我应该改用Liblinear,还是有更好的选择?
回答:
关于这个具体问题,我不得不使用Liblinear,因为LibSVC一直运行不完。
但如果有人想知道最终结果如何: