根据Spark ML文档,随机森林和梯度提升树可以用于分类和回归问题:
假设我的“标签”取整数值从0到n,我想训练这些分类器用于回归问题,预测标签字段的连续变量值。然而,我在文档中没有看到这两个回归器应该如何配置来解决这个问题,我也没有看到任何类参数来区分回归和分类的案例。那么,这两个分类器应该如何配置来解决回归问题呢?
回答:
实际上并没有涉及到这样的配置,原因是回归和分类问题实际上是由Spark ML中的不同子模块和类处理的;即对于分类,你应该使用(假设是PySpark):
from pyspark.ml.classification import GBTClassifier # GBTfrom pyspark.ml.classification import RandomForestClassifier # RF
而对于回归,你应该分别使用
from pyspark.ml.regression import GBTRegressor # GBTfrom pyspark.ml.regression import RandomForestRegressor # RF
查看文档中的分类和回归概述以获取更多详细信息。