如何在Spark中缓存随机森林模型

我的平台是Spark 2.1.0,使用的是Python…

在pyspark.ml中使用RandomForestClassifier时,VectorIndexer的maxCategories未按预期工作

背景:我正在进行一个简单的二元分类,使用来自pyspa…

Apache Spark 2.1中缺少LinearSVC?Spark 2.2中是否支持非线性核函数?

您能确认(或反驳)以下两个声明吗? SparkML中对…

spark error:java.lang.IllegalArgumentException: 大小超过了Integer.MAX_VALUE

我尝试计算负样本的数量,如下所示: val numNe…

pyspark.ml: 计算精确度和召回率时的类型错误

我正在尝试使用 pyspark.ml 计算分类器的精确…

pyspark.ml pipelines: 基本预处理任务是否需要自定义转换器?

在开始使用pyspark.ml和管道API时,我发现自…

在PySpark中使用UDF函数时,稠密向量的类型应该是怎样的? [duplicate]

这个问题已有答案: 如何在PySpark DataFr…

Spark ML随机森林和梯度提升树用于回归

根据Spark ML文档,随机森林和梯度提升树可以用于…

使用Spark对象的类型参数界限很难掌握

我是一个Scala的初学者。 我试图创建一个接受Pro…

线性回归在Apache Spark中使用Scala甚至不是直线

我想为我愚蠢的问题道歉,但我遇到了线性回归的问题。我在…

### 从列表创建Spark数据集

我需要为机器学习创建一个Spark数据集。我有一个包含…

‘RDD’对象没有属性 ‘_jdf’ pyspark RDD

我是pyspark的新手。我想对一个文本文件进行一些机…

### 处理大量列时性能下降。Pyspark

我在处理宽数据框时遇到了问题(大约9000列,有时更多…

在Scala中根据工资列的平均值映射新列的值(将字符串转换为整数)

我有一个部门代码的字符串,我想根据工资列的平均值将其转…

pyspark: 创建数据框时’RDD’不可调用

我正在尝试从最终用户通过REST API提供的参数中创…

在SparkContext中未定义sc

我的Spark包是spark-2.2.0-bin-ha…

python spark: 使用PCA缩小最相关特征

我正在使用Python的Spark 2.2版本。我使用…

在线性回归中使用日期及使用Spark MLlib将日期转换为数字

我想在线性回归中使用日期。因此,我需要将其转换为数字。…

Spark LDA的logLikelihood和logPerplexity方法不可用,如何测量它们?

已关闭。 此问题需要调试详情。目前不接受回答。 编辑问…

如何将向量转换为数组以进行频繁模式分析

我在进行频繁模式分析,需要一些关于输入类型的帮助。 首…

如何在Spark中正确地将数值特征与文本(词袋)结合?

我的问题与这个问题类似,但这是针对Spark的,并且原…

如何获取Spark LinearSVC模型的最佳特征?

我试图使用ChiSqSelector来确定Spark …

Spark MLib Word2Vec 错误:词汇量应大于 0

我正在尝试使用 Spark 的 MLLib 实现词向量…

将文本数据转换为SVM文件格式用于垃圾邮件分类?

如何将文本数据转换为LibSVM文件格式以训练垃圾邮件…

与H2O机器学习库相比,Sparkling Water的优势何在?

已关闭。此问题属于基于意见的问题。目前不接受回答。 想…