我们对对网络上存在的网页进行二元分类感兴趣,例如电子商务与非电子商务的分类。
目前,我们使用Mahout库和朴素贝叶斯算法。我们从已分类的URL创建训练数据,并从中提取特征集。
在准确性方面,执行此任务的最佳方法是什么?
我需要在算法、库(可与JAVA一起使用)或任何有助于此类分类的更好想法方面获得帮助。
提前感谢。
回答:
这个问题相当笼统,所以我只能添加一些一般信息。
提高分类质量的途径(按重要性排序)如下:
- 使用词形还原和/或词干提取,仅使用基本词形
- 实现词语过滤器以去除无用词
- 为不同语言训练单独的分类器