Home IT技术如何提高Weka中SMO分类器的性能？

如何提高Weka中SMO分类器的性能？

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我在使用Weka的SMO分类器对文档进行分类。SMO有很多参数可供选择，比如Kernel、容忍度等。我尝试了不同的参数设置，但在大数据集上未能获得理想的结果。

对于超过90个类别，只有20%的文档被正确分类。

请问有人能告诉我最佳的参数设置，以在SMO中获得最高的性能吗？

回答：

这里的主要问题不是分类本身，而是选择合适的特征。使用原始HTML会导致噪音很大，这反过来会使分类结果非常差。因此，要获得好的结果，请执行以下步骤：

提取相关文本。不仅要删除HTML标签，还要准确获取描述项目的文本。
创建关键词词典。例如，卡布奇诺、拿铁、白米饭等。
使用词干提取或词形还原来获取词的基本形式，避免将例如“棉花”和“棉花们”视为两个不同的词。
从文本中创建特征向量。属性（特征名称）应包括词典中的所有词。值可以是：二进制（如果词在文本中出现则为1，否则为0）、整数（文本中该词出现的次数）、tf-idf（如果你的文本长度差异很大，请使用此方法）以及其他方法。
只有在完成所有这些步骤后，你才可以使用分类器。

分类器的类型在这里可能不会起到很大的作用：基于词典的特征通常会带来相当准确的结果，无论使用哪种分类技术。你可以使用SVM（SMO）、朴素贝叶斯、人工神经网络甚至k近邻。更复杂的方法包括创建类别层次结构，例如，将“咖啡”类别包含在“饮料”类别中，而“饮料”类别又是“食品”类别的一部分。

classification java machine-learning smooch

发表回复取消回复