如何在Spark中获取spark.ml NaiveBayes的概率向量而不是[0-1]类别?

我正在使用NaiveBayes分类器工作,并且可以使用…

使用MLlib对数据集进行缩放

我使用Spark MLlib对下面的数据集进行了一些缩…

如何创建一个在已经拟合初始数据集后继续训练新样本的Estimator?

我正在尝试根据我在Spark源代码中找到的例子创建自己…

理解mllib中的滑动窗口

我知道在Spark结构化流中,滑动窗口是基于事件时间的…

如何使用Spark2和Scala获取数据框中某列的不同值及其计数,并将其作为(k,v)对存储在另一个数据框中

我想获取数据框中每列的不同值及其各自的计数,并将它们作…

如何根据列中包含的值过滤Spark Dataframe?

在我的数据集中,某些字符串列包含None或NA值,我想…

动态创建 flatmap 函数(带键状态)的流值

我正在编写一个流式 Flink 程序,用于为我们的离线…

无法调用DecisionTreeClassifier.train()

我在尝试使用DecisionTreeClassifie…

为什么我的DecisionTreeClassifier模型在预测时抱怨说labelCol不存在?

我开始编写一个用于对一系列文档中的段落进行分类的机器学…

如何从余弦相似性矩阵中获取项目ID?

我正在使用Spark Scala来计算数据框行之间的余…

Spark: 使用Spark绘制模型的学习曲线

我正在使用Spark,并希望训练一个机器学习模型。 由…

Spark – 在数据集中更改属于长尾的记录的值

我在解决一个机器学习问题的数据清理步骤中,试图将长尾中…

spark error:java.lang.IllegalArgumentException: 大小超过了Integer.MAX_VALUE

我尝试计算负样本的数量,如下所示: val numNe…

使用Spark对象的类型参数界限很难掌握

我是一个Scala的初学者。 我试图创建一个接受Pro…

线性回归在Apache Spark中使用Scala甚至不是直线

我想为我愚蠢的问题道歉,但我遇到了线性回归的问题。我在…

在Scala中根据工资列的平均值映射新列的值(将字符串转换为整数)

我有一个部门代码的字符串,我想根据工资列的平均值将其转…

在线性回归中使用日期及使用Spark MLlib将日期转换为数字

我想在线性回归中使用日期。因此,我需要将其转换为数字。…

如何在Spark中正确地将数值特征与文本(词袋)结合?

我的问题与这个问题类似,但这是针对Spark的,并且原…

Spark MLib Word2Vec 错误:词汇量应大于 0

我正在尝试使用 Spark 的 MLLib 实现词向量…

Scala: 将RDD[LabelledPoint]转换为RDD[(Long,Vector)]

我的数据存储在一个 RDD[LabeledPoint]…

包含空值的DataFrame中的RowMatrix

我有一个DataFrame,其中包含用户对电影的评分(…

Scala 随机森林特征重要性提取与名称(标签)

有没有办法从模型中提取特征重要性,并附加feature…

如何使用以LibSVM格式训练的Spark MLlib模型进行预测

我使用LibSVM格式的训练数据文件训练了我的模型,具…

如何在Scala 2.10中使用Spark 2.1.1获取随机森林的特征重要性?

我正在尝试从Spark MLib的随机森林回归器中获取…

将欧几里得距离转换为曼哈顿距离

下面的计算是在spark mlib库中用来计算欧几里得…