apache-spark – 第 2 页

IT技术

使用Spark Dataframe删除相同词语的逆序重复项

xiaolong · 2025年5月24日 · 0 Comment

我已经成功使用Spark Dataframe的方法dr…

IT技术

Pyspark逻辑回归拟合RDD对象没有属性_jdf错误

xiaolong · 2025年5月24日 · 0 Comment

我使用Python创建逻辑回归，并转向mllib以获得…

IT技术

如何根据列中包含的值过滤Spark Dataframe？

xiaolong · 2025年5月24日 · 0 Comment

在我的数据集中，某些字符串列包含None或NA值，我想…

IT技术

无法调用DecisionTreeClassifier.train()

xiaolong · 2025年5月24日 · 0 Comment

我在尝试使用DecisionTreeClassifie…

IT技术

Spark 2.1.1：如何在已训练的Spark 2.1.1 LDA模型上预测未见文档的主题？

xiaolong · 2025年5月24日 · 0 Comment

我在pyspark（Spark 2.1.1）上使用客户…

IT技术

如何在每次迭代后获取Apache Spark ML的训练得分

xiaolong · 2025年5月24日 · 0 Comment

是否有办法在每次迭代后获取评估得分，例如回归中的RMS…

IT技术

为什么我的DecisionTreeClassifier模型在预测时抱怨说labelCol不存在？

xiaolong · 2025年5月23日 · 0 Comment

我开始编写一个用于对一系列文档中的段落进行分类的机器学…

IT技术

如何在Spark中将多个列作为特征传递给逻辑回归分类器？ [重复]

xiaolong · 2025年5月23日 · 0 Comment

这个问题已有答案: 在Spark ML / pyspa…

IT技术

### Pyspark 内存溢出问题。如何确保表被覆盖

xiaolong · 2025年5月22日 · 0 Comment

我目前正在尝试理解 Spark 计算过程及其对内存消耗…

IT技术

如何在Apache Spark中获取评估数据？

xiaolong · 2025年5月22日 · 0 Comment

我实现了一个简单的朴素贝叶斯方法，与Spark教程中给…

IT技术

‘CrossValidatorModel’对象没有属性’featureImportances’

xiaolong · 2025年5月22日 · 0 Comment

我正在尝试提取使用Pyspark训练的随机森林分类器模…

IT技术

### Pyspark错误：使用交叉验证时出现“Field rawPrediction does not exist”

xiaolong · 2025年5月22日 · 0 Comment

我在训练数据上尝试使用CrossValidator，但…

IT技术

为什么Spark的Word2Vec返回一个向量？

xiaolong · 2025年5月22日 · 0 Comment

运行Spark的Word2Vec示例时，我发现它接收一…

IT技术

Spark模型如何处理向量列？

xiaolong · 2025年5月22日 · 0 Comment

在Spark中，方法如何处理向量组装列？例如，如果我有…

IT技术

如何在Spark中使用KMeans对推文进行聚类？

xiaolong · 2025年5月1日 · 0 Comment

我想根据主题对推文进行聚类（例如，将所有关于亚马逊的推…

IT技术

PySpark 中稀疏向量与稠密向量的比较

xiaolong · 2025年5月1日 · 0 Comment

如何判断在 PySpark 中应该使用稀疏表示还是稠密…

IT技术

如何将Scala Spark的CrossValidatorModel导出为PMML？

xiaolong · 2025年5月1日 · 0 Comment

我在尝试将模型导出为PMML时遇到了问题。我的模型使…

IT技术

如何从余弦相似性矩阵中获取项目ID？

xiaolong · 2025年5月1日 · 0 Comment

我正在使用Spark Scala来计算数据框行之间的余…

IT技术

Spark: 使用Spark绘制模型的学习曲线

xiaolong · 2025年5月1日 · 0 Comment

我正在使用Spark，并希望训练一个机器学习模型。由…

IT技术

Spark – 在数据集中更改属于长尾的记录的值

xiaolong · 2025年5月1日 · 0 Comment

我在解决一个机器学习问题的数据清理步骤中，试图将长尾中…

IT技术

如何在Spark中缓存随机森林模型

xiaolong · 2025年4月16日 · 0 Comment

我的平台是Spark 2.1.0，使用的是Python…

IT技术

在pyspark.ml中使用RandomForestClassifier时，VectorIndexer的maxCategories未按预期工作

xiaolong · 2025年4月16日 · 0 Comment

背景：我正在进行一个简单的二元分类，使用来自pyspa…

IT技术

Apache Spark 2.1中缺少LinearSVC？Spark 2.2中是否支持非线性核函数？

xiaolong · 2025年4月15日 · 0 Comment

您能确认（或反驳）以下两个声明吗？ SparkML中对…

IT技术

spark error:java.lang.IllegalArgumentException: 大小超过了Integer.MAX_VALUE

xiaolong · 2025年4月15日 · 0 Comment

我尝试计算负样本的数量，如下所示： val numNe…

IT技术

pyspark.ml: 计算精确度和召回率时的类型错误

xiaolong · 2025年4月15日 · 0 Comment

我正在尝试使用 pyspark.ml 计算分类器的精确…