我有一个形状为100000, 56000
的词袋(BoW)向量,我想使用scikit-learn的MultinomialNB
进行分类任务。
MultinomialNB
能接受稀疏矩阵来拟合数据吗?
由于内存错误,我无法将其转换为密集矩阵toarray()
。如果朴素贝叶斯分类器不接受稀疏矩阵,有没有其他替代方案可以在不转换为密集矩阵的情况下拟合数据?
回答:
根据MultinomialNB.fit
的文档(强调部分已标出):
fit(X, y, sample_weight=None)
参数:
X : {类数组, 稀疏矩阵},形状 = [n_samples, n_features]
训练向量,其中n_samples是样本数量,n_features是特征数量。