Home IT技术稀疏数据的离散和连续分类器

稀疏数据的离散和连续分类器

IT技术 xiaolong · 2025年4月6日 · 0 Comment

我正在尝试对一个包含离散和连续特征的示例进行分类。另外，这个示例表示的是稀疏数据，因此即使系统可能已经在100个特征上进行训练，示例可能只有12个特征。

要完成这个任务，最好的分类器算法是什么？我已经研究了贝叶斯、最大熵、决策树和KNN，但我不确定这些是否完全符合要求。我发现的最大的难点是，大多数实现既不支持稀疏数据集，又不支持离散和连续特征。谁能推荐一个符合这些标准的算法和实现（最好是Python的）？

到目前为止，我已经查看了以下库：

Orange（主要用于学术研究。实现效率不高，也不实用。）
NLTK（同样用于学术研究，尽管有一个很好的最大熵实现，但不处理连续特征。）
Weka（还在研究中。似乎支持广泛的算法，但文档不佳，因此不清楚每个实现支持什么。）

回答：

Weka（Java）满足您的所有要求：

大量的分类/回归算法
支持离散/连续（在Weka中称为名义/数值）属性
处理稀疏数据：ARFF格式

查看这个Pentaho wiki，获取文档、指南、视频教程等的链接列表…

classification java machine-learning python

发表回复取消回复