使用CrossValidator和ParamGridBuilder查找最佳管道模型

我已经有一个可以接受的模型,但我希望通过在Spark …

使用Pyspark训练非线性SVC模型

有没有办法使用Pyspark来训练一个非线性SVC模型…

pyspark.ml: 计算精确度和召回率时的类型错误

我正在尝试使用 pyspark.ml 计算分类器的精确…

在PySpark中使用UDF函数时,稠密向量的类型应该是怎样的? [duplicate]

这个问题已有答案: 如何在PySpark DataFr…

Spark ML随机森林和梯度提升树用于回归

根据Spark ML文档,随机森林和梯度提升树可以用于…

线性回归在Apache Spark中使用Scala甚至不是直线

我想为我愚蠢的问题道歉,但我遇到了线性回归的问题。我在…

在SparkContext中未定义sc

我的Spark包是spark-2.2.0-bin-ha…

在线性回归中使用日期及使用Spark MLlib将日期转换为数字

我想在线性回归中使用日期。因此,我需要将其转换为数字。…

pyspark 2.2.0 逻辑回归模型中raw predictions字段的概念

我试图理解Pyspark中逻辑回归模型生成的输出概念。…

如何在Spark中正确地将数值特征与文本(词袋)结合?

我的问题与这个问题类似,但这是针对Spark的,并且原…

Spark MLib Word2Vec 错误:词汇量应大于 0

我正在尝试使用 Spark 的 MLLib 实现词向量…

将文本数据转换为SVM文件格式用于垃圾邮件分类?

如何将文本数据转换为LibSVM文件格式以训练垃圾邮件…

在PySpark中进行KMeans聚类

我有一个名为’mydataframe&#8…

在PySpark多项逻辑回归中设置阈值

我想执行多项逻辑回归,但无法正确设置threshold…

包含空值的DataFrame中的RowMatrix

我有一个DataFrame,其中包含用户对电影的评分(…

我可以使用带有稀疏向量的DataFrame来进行交叉验证调参吗?

我在训练我的多层感知器分类器。这是我的训练集。特征采用…

PySpark ML: 获取KMeans聚类统计

我已经构建了一个KMeans模型。我的结果存储在一个名…

如何使用以LibSVM格式训练的Spark MLlib模型进行预测

我使用LibSVM格式的训练数据文件训练了我的模型,具…

在ALS.train()中,rank、numIterations和lambda是什么?

我是Spark机器学习的新手。我正在尝试使用协同过滤和…

能否将训练好的Spark ML模型或交叉验证器保存到PostgreSQL数据库?

能否将训练好的Spark ML模型或交叉验证器保存到P…

在Spark ML中是否可以创建通用的随机森林训练流程? [duplicate]

此问题已有答案: 如何将DataFrame的列向量化以…

PySpark LDA模型从RDD转换为密集向量

我已经设置了数据来输入Apache Spark LDA…

如何使用MLlib运行决策树?

我之前使用Scikit-learn来运行机器学习算法,…

PySpark中的交叉验证

我使用以下代码通过交叉验证来训练线性回归模型: fro…

Spark中的逻辑回归是如何并行化的?

我想了解一下在机器学习库中用于并行化逻辑回归的方法,我…