pyspark – 学技术

IT技术

如何在PySpark中为数据框的记录/行分配统计频率，而不使用.toPandas()方法？

xiaolong · 2025年6月1日 · 0 Comment

我是PySpark的新手，我想将包括编码和归一化部分的…

IT技术

NoSuchElementException: 在MultiLayerPerceptronClassifier中未能找到layers的默认值

xiaolong · 2025年6月1日 · 0 Comment

我在使用保存的MultiLayerPerceptron…

IT技术

PySpark中的MulticlassClassificationEvaluator和MultilabelClassificationEvaluator有什么区别？

xiaolong · 2025年5月31日 · 0 Comment

MulticlassClassificationEva…

IT技术

Pyspark训练的Logistic Regression模型无法使用predict()和predictProbability()函数

xiaolong · 2025年5月31日 · 0 Comment

我使用PySpark MLlib内置的Logistic…

IT技术

如何在PySpark 2.3中使用f1-score作为二分类问题(CrossValidator评估器)的评估指标(BinaryClassificationEvaluator)

xiaolong · 2025年5月31日 · 0 Comment

我的用例是一个常见的用例：二分类问题中标签不平衡，因此…

IT技术

如何使用PySpark的ChiSqSelector检查选定的特征？

xiaolong · 2025年5月31日 · 0 Comment

我正在使用PySpark的ChiSqSelector来…

IT技术

pyspark.sql.utils.IllegalArgumentException: ‘字段 “features” 不存在

xiaolong · 2025年5月31日 · 0 Comment

我正在尝试使用SparkNLP对文本数据进行主题建模和…

IT技术

在PySpark中使用K-means聚类算法：定义初始种子的语法

xiaolong · 2025年5月30日 · 0 Comment

我在分析PySpark中的K-means聚类算法时遇到…

IT技术

在PySpark中对groupby操作中的列进行稀疏向量聚合

xiaolong · 2025年5月30日 · 0 Comment

问题：我试图将稀疏向量按id合并成一个（这应该是按id…

IT技术

Python 如何处理文本文件中的非结构化数据

xiaolong · 2025年5月29日 · 0 Comment

我有一个这样的文件格式。 # Jon Doe# 272…

IT技术

如何在pyspark中按列值而非按行进行训练/测试分割

xiaolong · 2025年5月29日 · 0 Comment

我想为机器学习生成训练集和测试集。假设我有一个包含以下…

IT技术

如何将一组数值转换为更接近均值的数值，同时保持相似的分布形状（即降低标准差）在PySpark中

xiaolong · 2025年5月29日 · 0 Comment

我希望我已经正确地描述了我需要完成的工作。本质上，我需…

IT技术

使用PySpark拟合CrossValidator对象到训练数据时出错

xiaolong · 2025年5月29日 · 0 Comment

我在这里找到了很多关于从已拟合的CrossValida…

IT技术

在PySpark中分类后的所有评估指标

xiaolong · 2025年5月29日 · 0 Comment

我已经训练了一个模型，并希望计算几个重要的指标，如ac…

IT技术

‘OneHotEncoder’对象没有属性’transform’

xiaolong · 2025年5月29日 · 0 Comment

我使用的是Spark v3.0.0版本。我的数据框如下…

IT技术

如何在PySpark管道阶段中处理字符串索引器和独热编码器

xiaolong · 2025年5月29日 · 0 Comment

针对以下代码遇到此错误： stage_string =…

IT技术

### Spark在处理巨大数据框和不在MLlib中的机器学习算法时能否提高性能？

xiaolong · 2025年5月29日 · 0 Comment

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

IT技术

在Azure ML服务上部署时，PySpark ALSModel加载失败，出现错误java.util.NoSuchElementException: Param blockSize不存在

xiaolong · 2025年5月29日 · 0 Comment

我试图在Azure ML服务上部署使用PySpark训…

IT技术

KMeans聚类中种子和运行次数的重要性

xiaolong · 2025年5月28日 · 0 Comment

我对机器学习还不太熟悉，所以正在尝试理解以下代码。具体…

IT技术

处理约1000列的Pyspark并行处理

xiaolong · 2025年5月28日 · 0 Comment

我有一个包含约1500列的数据集，我试图将所有列中的零…

IT技术

### AttributeError: ‘PipelineModel’ 对象没有属性 ‘fitMultiple’

xiaolong · 2025年5月27日 · 0 Comment

我在尝试使用 pyspark、CrossValidat…

IT技术

PySpark: AttributeError: ‘PipelineModel’ 对象没有属性 ‘clusterCenters’

xiaolong · 2025年5月27日 · 0 Comment

我使用 PySpark 创建了一个 K-means 算…

IT技术

如何从PySpark的向量结构中获取项目

xiaolong · 2025年5月27日 · 0 Comment

我正在尝试从TF-IDF结果向量中获取分数数组。例如：…

IT技术

String Indexer, CountVectorizer Pyspark 在单行上

xiaolong · 2025年5月26日 · 0 Comment

你好，我遇到了一个问题，我有一些行，每行有两个包含单词…

IT技术

使用Pyspark读取数据集并提取特征

xiaolong · 2025年5月26日 · 0 Comment

抱歉问一个新手问题，因为我刚开始使用Pyspark。我…