为什么只包含一个估计器的Adaboost比简单决策树更快？

我想比较adaboost和决策树。为了证明这个概念，我将adaboost中的估计器数量设置为1，使用默认的决策树分类器，期望得到与简单决策树相同的结果。

我确实得到了预测测试标签的相同准确率。然而，adaboost的拟合时间要低得多，而测试时间略高。Adaboost似乎使用了与DecisionTreeClassifier相同的默认设置，否则准确率不会完全相同。

谁能解释一下这是为什么？

代码

from sklearn.ensemble import AdaBoostClassifierfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_score   print("creating classifier")clf = AdaBoostClassifier(n_estimators = 1)clf2 = DecisionTreeClassifier()print("starting to fit")time0 = time()clf.fit(features_train,labels_train) #fit adaboostfitting_time = time() - time0print("time for fitting adaboost was", fitting_time)time0 = time()clf2.fit(features_train,labels_train) #fit dtreefitting_time = time() - time0print("time for fitting dtree was", fitting_time)time1 = time()pred = clf.predict(features_test) #test adaboosttest_time = time() - time1print("time for testing adaboost was", test_time)time1 = time()pred = clf2.predict(features_test) #test dtreetest_time = time() - time1print("time for testing dtree was", test_time)accuracy_ada = accuracy_score(pred, labels_test) #acc adaprint("accuracy for adaboost is", accuracy_ada)accuracy_dt = accuracy_score(pred, labels_test) #acc dtreeprint("accuracy for dtree is", accuracy_dt)

输出

('time for fitting adaboost was', 3.8290421962738037)('time for fitting dtree was', 85.19442415237427)('time for testing adaboost was', 0.1834099292755127)('time for testing dtree was', 0.056527137756347656)('accuracy for adaboost is', 0.99089874857792948)('accuracy for dtree is', 0.99089874857792948)

回答：

我在IPython中尝试重复你的实验，但我没有看到这么大的差异：

from sklearn.ensemble import AdaBoostClassifierfrom sklearn.tree import DecisionTreeClassifierimport numpy as npx = np.random.randn(3785,16000)y = (x[:,0]>0.).astype(np.float)    clf = AdaBoostClassifier(n_estimators = 1)clf2 = DecisionTreeClassifier()%timeit clf.fit(x,y)1 loop, best of 3: 5.56 s per loop%timeit clf2.fit(x,y)1 loop, best of 3: 5.51 s per loop

尝试使用性能分析器，或者先重复实验。

学技术

为什么只包含一个估计器的Adaboost比简单决策树更快？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复