我正在处理数千份需要分类到五个类别的文档。我使用的是朴素贝叶斯分类器。在对一些样本邮件进行测试时,它运行得很好,但当我将其应用到原始数据集时,由于特征数量较多,计算变得非常复杂。有一点的值非常小,几乎为零。所以我的问题是,如何避免得到非常小的值的问题,以及如何改进特征选择?
回答:
Weka 支持通过搜索数据中所有可能的特征组合来进行特征选择,以找到最适合预测的子集(基于评分和排名)。请参考示例代码。
我正在处理数千份需要分类到五个类别的文档。我使用的是朴素贝叶斯分类器。在对一些样本邮件进行测试时,它运行得很好,但当我将其应用到原始数据集时,由于特征数量较多,计算变得非常复杂。有一点的值非常小,几乎为零。所以我的问题是,如何避免得到非常小的值的问题,以及如何改进特征选择?
回答:
Weka 支持通过搜索数据中所有可能的特征组合来进行特征选择,以找到最适合预测的子集(基于评分和排名)。请参考示例代码。