scala – 学技术

IT技术

如何在Spark中获取spark.ml NaiveBayes的概率向量而不是[0-1]类别？

xiaolong · 2025年5月30日 · 0 Comment

我正在使用NaiveBayes分类器工作，并且可以使用…

IT技术

使用MLlib对数据集进行缩放

xiaolong · 2025年5月27日 · 0 Comment

我使用Spark MLlib对下面的数据集进行了一些缩…

IT技术

如何创建一个在已经拟合初始数据集后继续训练新样本的Estimator？

xiaolong · 2025年5月27日 · 0 Comment

我正在尝试根据我在Spark源代码中找到的例子创建自己…

IT技术

理解mllib中的滑动窗口

xiaolong · 2025年5月26日 · 0 Comment

我知道在Spark结构化流中，滑动窗口是基于事件时间的…

IT技术

如何使用Spark2和Scala获取数据框中某列的不同值及其计数，并将其作为(k,v)对存储在另一个数据框中

xiaolong · 2025年5月25日 · 0 Comment

我想获取数据框中每列的不同值及其各自的计数，并将它们作…

IT技术

如何根据列中包含的值过滤Spark Dataframe？

xiaolong · 2025年5月24日 · 0 Comment

在我的数据集中，某些字符串列包含None或NA值，我想…

IT技术

动态创建 flatmap 函数（带键状态）的流值

xiaolong · 2025年5月24日 · 0 Comment

我正在编写一个流式 Flink 程序，用于为我们的离线…

IT技术

无法调用DecisionTreeClassifier.train()

xiaolong · 2025年5月24日 · 0 Comment

我在尝试使用DecisionTreeClassifie…

IT技术

为什么我的DecisionTreeClassifier模型在预测时抱怨说labelCol不存在？

xiaolong · 2025年5月23日 · 0 Comment

我开始编写一个用于对一系列文档中的段落进行分类的机器学…

IT技术

如何从余弦相似性矩阵中获取项目ID？

xiaolong · 2025年5月1日 · 0 Comment

我正在使用Spark Scala来计算数据框行之间的余…

IT技术

Spark: 使用Spark绘制模型的学习曲线

xiaolong · 2025年5月1日 · 0 Comment

我正在使用Spark，并希望训练一个机器学习模型。由…

IT技术

Spark – 在数据集中更改属于长尾的记录的值

xiaolong · 2025年5月1日 · 0 Comment

我在解决一个机器学习问题的数据清理步骤中，试图将长尾中…

IT技术

spark error:java.lang.IllegalArgumentException: 大小超过了Integer.MAX_VALUE

xiaolong · 2025年4月15日 · 0 Comment

我尝试计算负样本的数量，如下所示： val numNe…

IT技术

使用Spark对象的类型参数界限很难掌握

xiaolong · 2025年4月15日 · 0 Comment

我是一个Scala的初学者。我试图创建一个接受Pro…

IT技术

线性回归在Apache Spark中使用Scala甚至不是直线

xiaolong · 2025年4月15日 · 0 Comment

我想为我愚蠢的问题道歉，但我遇到了线性回归的问题。我在…

IT技术

在Scala中根据工资列的平均值映射新列的值（将字符串转换为整数）

xiaolong · 2025年4月14日 · 0 Comment

我有一个部门代码的字符串，我想根据工资列的平均值将其转…

IT技术

在线性回归中使用日期及使用Spark MLlib将日期转换为数字

xiaolong · 2025年4月14日 · 0 Comment

我想在线性回归中使用日期。因此，我需要将其转换为数字。…

IT技术

如何在Spark中正确地将数值特征与文本（词袋）结合？

xiaolong · 2025年4月14日 · 0 Comment

我的问题与这个问题类似，但这是针对Spark的，并且原…

IT技术

Spark MLib Word2Vec 错误：词汇量应大于 0

xiaolong · 2025年4月14日 · 0 Comment

我正在尝试使用 Spark 的 MLLib 实现词向量…

IT技术

Scala: 将RDD[LabelledPoint]转换为RDD[(Long,Vector)]

xiaolong · 2025年4月14日 · 0 Comment

我的数据存储在一个 RDD[LabeledPoint]…

IT技术

包含空值的DataFrame中的RowMatrix

xiaolong · 2025年4月14日 · 0 Comment

我有一个DataFrame，其中包含用户对电影的评分（…

IT技术

Scala 随机森林特征重要性提取与名称（标签）

xiaolong · 2025年4月14日 · 0 Comment

有没有办法从模型中提取特征重要性，并附加feature…

IT技术

如何使用以LibSVM格式训练的Spark MLlib模型进行预测

xiaolong · 2025年4月14日 · 0 Comment

我使用LibSVM格式的训练数据文件训练了我的模型，具…

IT技术

如何在Scala 2.10中使用Spark 2.1.1获取随机森林的特征重要性？

xiaolong · 2025年4月13日 · 0 Comment

我正在尝试从Spark MLib的随机森林回归器中获取…

IT技术

将欧几里得距离转换为曼哈顿距离

xiaolong · 2025年4月13日 · 0 Comment

下面的计算是在spark mlib库中用来计算欧几里得…