apache-spark – 学技术

IT技术

ML Tuning – Cross Validation in Spark

xiaolong · 2025年6月1日 · 0 Comment

我在https://spark.apache.org/…

IT技术

在Spark集群上执行GridSearchCV – ImportError: 没有名为

xiaolong · 2025年6月1日 · 0 Comment

的模块我正在尝试使用spark-sklearn库在S…

IT技术

PySpark中的MulticlassClassificationEvaluator和MultilabelClassificationEvaluator有什么区别？

xiaolong · 2025年5月31日 · 0 Comment

MulticlassClassificationEva…

IT技术

Java Spark Naive Bayes – 预测未来时间戳

xiaolong · 2025年5月31日 · 0 Comment

关于使用SparkML和朴素贝叶斯进行预测/预测的一个…

IT技术

如何在PySpark 2.3中使用f1-score作为二分类问题(CrossValidator评估器)的评估指标(BinaryClassificationEvaluator)

xiaolong · 2025年5月31日 · 0 Comment

我的用例是一个常见的用例：二分类问题中标签不平衡，因此…

IT技术

如何使用PySpark的ChiSqSelector检查选定的特征？

xiaolong · 2025年5月31日 · 0 Comment

我正在使用PySpark的ChiSqSelector来…

IT技术

如何在Spark中获取spark.ml NaiveBayes的概率向量而不是[0-1]类别？

xiaolong · 2025年5月30日 · 0 Comment

我正在使用NaiveBayes分类器工作，并且可以使用…

IT技术

在PySpark中使用K-means聚类算法：定义初始种子的语法

xiaolong · 2025年5月30日 · 0 Comment

我在分析PySpark中的K-means聚类算法时遇到…

IT技术

在PySpark中对groupby操作中的列进行稀疏向量聚合

xiaolong · 2025年5月30日 · 0 Comment

问题：我试图将稀疏向量按id合并成一个（这应该是按id…

IT技术

使用Spark 3加载PipelineModel时出现AnalysisException

xiaolong · 2025年5月29日 · 0 Comment

我在将Spark版本从2.4.5升级到3.0.1时，无…

IT技术

如何在pyspark中按列值而非按行进行训练/测试分割

xiaolong · 2025年5月29日 · 0 Comment

我想为机器学习生成训练集和测试集。假设我有一个包含以下…

IT技术

如何将一组数值转换为更接近均值的数值，同时保持相似的分布形状（即降低标准差）在PySpark中

xiaolong · 2025年5月29日 · 0 Comment

我希望我已经正确地描述了我需要完成的工作。本质上，我需…

IT技术

### Spark在处理巨大数据框和不在MLlib中的机器学习算法时能否提高性能？

xiaolong · 2025年5月29日 · 0 Comment

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

IT技术

在Azure ML服务上部署时，PySpark ALSModel加载失败，出现错误java.util.NoSuchElementException: Param blockSize不存在

xiaolong · 2025年5月29日 · 0 Comment

我试图在Azure ML服务上部署使用PySpark训…

IT技术

何时使用Z分数标准化数据（在分割前还是分割后）

xiaolong · 2025年5月28日 · 0 Comment

我在学习Udemy课程时，该课程强烈建议仅对训练数据进…

IT技术

处理约1000列的Pyspark并行处理

xiaolong · 2025年5月28日 · 0 Comment

我有一个包含约1500列的数据集，我试图将所有列中的零…

IT技术

Spark RFormula 解释

xiaolong · 2025年5月27日 · 0 Comment

我在阅读《Spark 权威指南》时，遇到了 MLlib…

IT技术

使用MLlib对数据集进行缩放

xiaolong · 2025年5月27日 · 0 Comment

我使用Spark MLlib对下面的数据集进行了一些缩…

IT技术

使用 sklearn 和 Spark 计算不同轮廓分数

xiaolong · 2025年5月27日 · 0 Comment

当我使用 Spark 和 sklearn 对相同的数据…

IT技术

如何创建一个在已经拟合初始数据集后继续训练新样本的Estimator？

xiaolong · 2025年5月27日 · 0 Comment

我正在尝试根据我在Spark源代码中找到的例子创建自己…

IT技术

使用Sparklyr进行FPGrowth/关联规则

xiaolong · 2025年5月26日 · 0 Comment

我正在尝试使用Sparklyr构建一个关联规则算法，并…

IT技术

理解mllib中的滑动窗口

xiaolong · 2025年5月26日 · 0 Comment

我知道在Spark结构化流中，滑动窗口是基于事件时间的…

IT技术

使用Pyspark读取数据集并提取特征

xiaolong · 2025年5月26日 · 0 Comment

抱歉问一个新手问题，因为我刚开始使用Pyspark。我…

IT技术

如何使用Spark2和Scala获取数据框中某列的不同值及其计数，并将其作为(k,v)对存储在另一个数据框中

xiaolong · 2025年5月25日 · 0 Comment

我想获取数据框中每列的不同值及其各自的计数，并将它们作…

IT技术

使用Spark进行机器学习，数据准备阶段的性能问题，MLeap

xiaolong · 2025年5月24日 · 0 Comment

我发现关于MLeap的很多积极反馈——这是一个允许快速…