数据集用于准确预测的最小行数

我在16核机器上运行glmnet,偏好使用lasso回归。我有一个大约800K行的稀疏矩阵格式数据,包含大约2K列,需要训练以预测第一列的概率。

这个过程变得非常慢。我想知道,是否有办法通过在nfolds上并行化来加速它,或者我是否可以选择更少的行而不影响准确性。这是可能的吗?如果可以,哪种方法更好?


回答:

可以通过使用并行化来加速这个过程,如上面的评论链接中所解释的,在R中并行执行glmnet可以通过在cv.glmnet()函数中设置parallel=TRUE选项来实现,一旦你指定了核心数量,像这样:

library(doParallel)registerDoParallel(5)m <- cv.glmnet(x, y, family="binomial", alpha=0.7, type.measure="auc",           grouped=FALSE, standardize=FALSE, parallel=TRUE)

减少行数更多是基于测试集上的AUC值的判断。如果它高于阈值,并且减少行数不影响这一点,那么这无疑是一个好主意。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注