如何处理scikit-learn的特征数量?

我有一个大小为[66k, 56k]的csv文件(行数,列数)。这是一个稀疏矩阵。我知道numpy可以处理这种大小的矩阵。根据大家的经验,我想知道scikit-learn的算法能够舒适处理多少特征?


回答:

这取决于估计器。在这种规模下,线性模型仍然表现良好,而支持向量机(SVM)可能需要永远的时间来训练(至于随机森林,它们根本无法处理稀疏矩阵)。

我个人使用过LinearSVCLogisticRegressionSGDClassifier处理大小约为300k × 330万的稀疏矩阵,没有遇到任何问题。请参考@***的scikit-learn备忘单,以选择适合当前任务的正确估计器。

完全披露:我是scikit-learn的核心开发者。

Related Posts

R xgboost在caret上尝试执行分类而不是回归

大家好。 首先,数据样本在这里: > str(t…

Sklearn中CountVectorizer在管道中的NotFittedError

我正在尝试通过sklearn学习如何处理文本数据,但遇…

理解使用预训练卷积神经网络进行特征提取

在弗朗索瓦·肖莱(Keras的创造者)所著的《用Pyt…

在英语语法中,是否有API可以获取与特定主题相关的所有单词

我正在使用Python进行自然语言处理,我的下一步是收…

机器学习教程中使用的fruit_data示例中的颜色分数是多少?

很多教程都使用了这个水果数据示例。颜色分数是多少?它是…

在 Swift 中进行机器学习时无法将类型为 ‘[[String]]’ 的值赋值给类型为 ‘String?’ 的变量

我在我的 Swift 应用程序中使用机器学习和图像检测…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注