Home IT技术网页的二元分类

网页的二元分类

IT技术 xiaolong · 2025年4月6日 · 0 Comment

我们对对网络上存在的网页进行二元分类感兴趣，例如电子商务与非电子商务的分类。

目前，我们使用Mahout库和朴素贝叶斯算法。我们从已分类的URL创建训练数据，并从中提取特征集。

在准确性方面，执行此任务的最佳方法是什么？

我需要在算法、库（可与JAVA一起使用）或任何有助于此类分类的更好想法方面获得帮助。

提前感谢。

回答：

这个问题相当笼统，所以我只能添加一些一般信息。

提高分类质量的途径（按重要性排序）如下：

使用词形还原和/或词干提取，仅使用基本词形
实现词语过滤器以去除无用词
为不同语言训练单独的分类器

classification java machine-learning

发表回复取消回复