Apache Spark用户-用户推荐?

我有一组数据,包含用户通过选择完成的问题和答案。我试图…

如何重新分区PySpark数据框?

data.rdd.getNumPartitions()…

能否将训练好的Spark ML模型或交叉验证器保存到PostgreSQL数据库?

能否将训练好的Spark ML模型或交叉验证器保存到P…

Pyspark – 从数据框创建训练集和测试集

我有一个如图所示的数据框。我想从中创建一个训练集和一个…

PySpark LDA模型从RDD转换为密集向量

我已经设置了数据来输入Apache Spark LDA…

如何使用MLlib运行决策树?

我之前使用Scikit-learn来运行机器学习算法,…

PySpark中的交叉验证

我使用以下代码通过交叉验证来训练线性回归模型: fro…

PYSPARK: 如何从CrossValidatorModel中获取权重?

我使用以下代码从https://spark.apach…

在Pyspark管道中使用用户定义的转换器

我正在尝试创建一个Pyspark管道来运行一个分类模型…

PySpark 使用SGD的线性回归,模型预测维度不匹配

我遇到了以下错误: AssertionError: 维…

在调用LogisticRegressionModelWithLBFGS.train时出现Py4JavaError

我有一个包含5000行和401列的训练集,其中第一列是…

意外的Spark多项式逻辑回归系数

我在Mac上运行Spark 2.1.1,操作系统是Si…

在scikit-learn中复制pyspark的逻辑回归模型

问题: pyspark和scikit-learn中逻辑…

如何在pyspark中比较KMeans模型与GaussianMixture和LDA模型的性能?

我正在使用pyspark.ml.clustering库…

Pyspark 并行 ml.KMeans 互相覆盖 K

我参考了一篇帖子,尝试并行运行 KMeans。我使用的…

PySpark dataframe pipeline 抛出 No plan for MetastoreRelation 错误

在对 pyspark dataframe 进行预处理后…

如何从PySpark的多层感知器分类器中获取分类概率?

我在Python中使用的是Spark 2.0.1版本,…

pyspark.sql.utils.IllegalArgumentException: ‘需求失败:无效的初始容量’

我在使用Spark的ML库进行决策树的交叉验证时,调用…

PySpark : 将DataFrame中字符串类型的列转换为Double类型时出现KeyError

我在学习使用PySpark进行机器学习。我有一个数据集…

在Spark的map函数中运行机器学习算法

我已经尝试了几天在Spark的map函数中运行机器学习…

如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类,并使用pipeline方法构建了一…

在PySpark DataFrame中计算列数?

我有一个包含15列的数据框(其中4列为分类变量,其余为…

如何将类型 转换为 Vector

我对Spark完全是新手,目前正在尝试使用Python…

维度不匹配错误在Spark ML中

我对机器学习和Spark ML都比较新手,正在尝试使用…

如何在PySpark中覆盖Spark ML模型?

from pyspark.ml.regression …