在Pyspark管道中使用用户定义的转换器

我正在尝试创建一个Pyspark管道来运行一个分类模型…

PySpark 使用SGD的线性回归,模型预测维度不匹配

我遇到了以下错误: AssertionError: 维…

在调用LogisticRegressionModelWithLBFGS.train时出现Py4JavaError

我有一个包含5000行和401列的训练集,其中第一列是…

意外的Spark多项式逻辑回归系数

我在Mac上运行Spark 2.1.1,操作系统是Si…

在scikit-learn中复制pyspark的逻辑回归模型

问题: pyspark和scikit-learn中逻辑…

如何在pyspark中比较KMeans模型与GaussianMixture和LDA模型的性能?

我正在使用pyspark.ml.clustering库…

Pyspark 并行 ml.KMeans 互相覆盖 K

我参考了一篇帖子,尝试并行运行 KMeans。我使用的…

PySpark dataframe pipeline 抛出 No plan for MetastoreRelation 错误

在对 pyspark dataframe 进行预处理后…

如何从PySpark的多层感知器分类器中获取分类概率?

我在Python中使用的是Spark 2.0.1版本,…

pyspark.sql.utils.IllegalArgumentException: ‘需求失败:无效的初始容量’

我在使用Spark的ML库进行决策树的交叉验证时,调用…

PySpark : 将DataFrame中字符串类型的列转换为Double类型时出现KeyError

我在学习使用PySpark进行机器学习。我有一个数据集…

在Spark的map函数中运行机器学习算法

我已经尝试了几天在Spark的map函数中运行机器学习…

如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类,并使用pipeline方法构建了一…

在PySpark DataFrame中计算列数?

我有一个包含15列的数据框(其中4列为分类变量,其余为…

如何将类型 转换为 Vector

我对Spark完全是新手,目前正在尝试使用Python…

维度不匹配错误在Spark ML中

我对机器学习和Spark ML都比较新手,正在尝试使用…

如何在PySpark中覆盖Spark ML模型?

from pyspark.ml.regression …

如何在PySpark中使用MultiClassMetrics计算F分数?

根据PySpark的文档,fmeasure()函数接受…

在PySpark中提取Logistic回归系数的显著性值

在训练数据上拟合逻辑回归模型后,是否有方法可以获取每个…

无法训练pySpark SVM,标记点问题

我正在尝试将一个Spark Dataframe转换为标…

pyspark : NameError: 名称 ‘spark’ 未定义

我正在从官方文档网站复制pyspark.ml的示例:h…

在PySpark中更改数据框列的值

我在Spark中有两个数据框,分别是train和tes…

为什么Spark的OneHotEncoder默认情况下会丢弃最后一个类别?

我想了解Spark的OneHotEncoder默认丢弃…

Pyspark – 获取使用ParamGridBuilder创建的模型的所有参数

我在使用PySpark 2.0参加Kaggle竞赛。我…

KMeans的不平衡因子?

编辑:这个问题在以下链接中有详细讨论:Sum in S…