运行来自 http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/data 的随机森林示例时,以下代码行:
forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000)
需要数小时(不确定是否会结束,但进程似乎在运行)。
数据集有1128行和约7000个变量。
能否估计随机森林训练何时完成?我能否以某种方式分析R以获取更多信息?
回答:
一个控制收敛性的想法是使用do.trace
进入详细模式
iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,+ proximity=TRUE,do.trace=TRUE)ntree OOB 1 2 3 1: 8.62% 0.00% 9.52% 15.00% 2: 5.49% 0.00% 3.45% 13.79% 3: 5.45% 0.00% 5.41% 11.76% 4: 4.72% 0.00% 4.88% 9.30% 5: 5.11% 0.00% 6.52% 8.89% 6: 5.56% 2.08% 6.25% 8.33% 7: 4.76% 0.00% 6.12% 8.16% 8: 5.41% 0.00% 8.16% 8.16% .......