apache-spark-sql – 学技术

IT技术

在SQL数据库上训练决策树分类器

xiaolong · 2025年5月30日 · 0 Comment

我有一个SQL数据库，包含超过一百万行数据，我想在其上…

IT技术

如何在pyspark中按列值而非按行进行训练/测试分割

xiaolong · 2025年5月29日 · 0 Comment

我想为机器学习生成训练集和测试集。假设我有一个包含以下…

IT技术

如何根据列的累积和创建不等分位数/四分位数

xiaolong · 2025年5月26日 · 0 Comment

我正在尝试对如下数据集进行四分位划分： ID Volu…

IT技术

如何根据使用独热编码的数据设置标志值

xiaolong · 2025年5月26日 · 0 Comment

我有一个由三个表组成的数据库，像这样：我想使用这个数…

IT技术

如何使用Spark2和Scala获取数据框中某列的不同值及其计数，并将其作为(k,v)对存储在另一个数据框中

xiaolong · 2025年5月25日 · 0 Comment

我想获取数据框中每列的不同值及其各自的计数，并将它们作…

IT技术

pyspark ml模型预测后映射id列

xiaolong · 2025年5月25日 · 0 Comment

我使用pyspark.ml.classificatio…

IT技术

使用Spark Dataframe删除相同词语的逆序重复项

xiaolong · 2025年5月24日 · 0 Comment

我已经成功使用Spark Dataframe的方法dr…

IT技术

如何减少Atari游戏中Q值的计算量？

xiaolong · 2025年5月24日 · 0 Comment

我们知道Q学习需要大量的计算： Q学习计算中的巨大状态…

IT技术

如何根据列中包含的值过滤Spark Dataframe？

xiaolong · 2025年5月24日 · 0 Comment

在我的数据集中，某些字符串列包含None或NA值，我想…

IT技术

使用Python从MongoDB创建LabeledPoint

xiaolong · 2025年4月15日 · 0 Comment

我想使用Python从MongoDB创建Labeled…

IT技术

‘RDD’对象没有属性 ‘_jdf’ pyspark RDD

xiaolong · 2025年4月15日 · 0 Comment

我是pyspark的新手。我想对一个文本文件进行一些机…

IT技术

在Scala中根据工资列的平均值映射新列的值（将字符串转换为整数）

xiaolong · 2025年4月14日 · 0 Comment

我有一个部门代码的字符串，我想根据工资列的平均值将其转…

IT技术

### 通过行中非空元素数量均匀分区PySpark Dataframe

xiaolong · 2025年4月13日 · 0 Comment

我知道关于如何通过加盐键等方法最佳分区你的DataFr…

IT技术

Pyspark – 从数据框创建训练集和测试集

xiaolong · 2025年4月13日 · 0 Comment

我有一个如图所示的数据框。我想从中创建一个训练集和一个…

IT技术

如何在Spark SQL中使用group by后添加稀疏向量？

xiaolong · 2025年4月13日 · 0 Comment

我正在开发一个新闻推荐系统，需要为用户及其阅读的新闻构…

IT技术

根据机器时间自动调整参数

xiaolong · 2025年4月13日 · 0 Comment

我正在寻找一种“机器学习”算法，可以根据预定义的标准动…

IT技术

SparkR 2.0 分类：如何获取性能矩阵？

xiaolong · 2025年4月13日 · 0 Comment

如何在SparkR分类中获取性能矩阵，例如F1分数、精…

IT技术

在Pyspark管道中使用用户定义的转换器

xiaolong · 2025年4月13日 · 0 Comment

我正在尝试创建一个Pyspark管道来运行一个分类模型…

IT技术

PySpark dataframe pipeline 抛出 No plan for MetastoreRelation 错误

xiaolong · 2025年4月12日 · 0 Comment

在对 pyspark dataframe 进行预处理后…

IT技术

如何获取Spark中像线性回归这样的机器学习算法的所有超参数列表？

xiaolong · 2025年4月12日 · 0 Comment

我正在学习使用Spark的DataFrames API…

IT技术

如何解释Spark逻辑回归预测中的概率列？

xiaolong · 2025年4月12日 · 0 Comment

我通过spark.ml.classification….

IT技术

Spark ML – 从新数据元素创建特征向量以进行预测

xiaolong · 2025年4月12日 · 0 Comment

tl;dr 我在Spark 2.10中拟合了一个Lin…

IT技术

在PySpark DataFrame中计算列数？

xiaolong · 2025年4月12日 · 0 Comment

我有一个包含15列的数据框（其中4列为分类变量，其余为…

IT技术

如何在Java Spark中读取文本文件并将其转换为Dataset？

xiaolong · 2025年4月11日 · 0 Comment

我想在我的Java Spark项目中读取两个包含数据的…

IT技术

如何检测数据库中的异常数据点

xiaolong · 2025年4月10日 · 0 Comment

我目前有一个数据库，其中包含一些标记错误的价格数据。 …