闪亮水滴项目运行问题

我从’https://github.com…

Spark MLLib: 将任意稀疏特征转换为固定长度的Vector

我们正在将一个在线机器学习的线性回归模型从Vowpal…

将模型分数应用到Spark DataFrame – Python

我正在尝试使用PySpark将分数应用到Spark D…

在每次迭代步骤中获取Spark指标?

在特定数据集上应用Spark的逻辑回归需要定义迭代次数…

使用reduceByKey()替代groupByKey()

这是对这里的跟进问题。我正在尝试基于这个实现来实现k-…

如何将linalg.Vector转换为regression.LabeledPoint格式?

我在spark-shell中尝试实现一个简单的机器学习…

Spark (1.6) ML线性回归 – 如何使用模型进行预测

我有一个工作的线性回归模型: lrModelorg.a…

为什么我在运行Pyspark时总是遇到错误“env: ipython: No such file or directory”

我想使用IPython运行Pyspark终端。我已经在…

在Spark 1.5.0中recommendProductsForUsers方法无法使用

给定以下代码: from pyspark import…

KMeans||用于Spark上的情感分析

我正在尝试基于Spark编写一个情感分析程序。为此,我…

SPARK ML,朴素贝叶斯分类器:对一个类别的高概率预测

我正在使用Spark ML来优化一个多类别的朴素贝叶斯…

文本分类 – 如何处理

我会尽力描述我的想法。 在MS SQL数据库中存储了文…

Spark mllib LinearRegression 奇怪的结果

我从一个示例开始尝试进行线性回归。问题是我得到了错误的…

在PySpark中运行Word2Vec示例时遇到错误

我尝试运行文档中给出的非常简单的Word2Vec示例,…

多标签的Logistic Regression在PySpark MLlib中的问题

我在尝试创建一个LogisticRegression模…

如何在pyspark中使用LogisticRegressionWithLBFGS打印预测的概率

我正在使用Spark 1.5.1,在pyspark中,…

coreNLP严重拖慢Spark作业`

我正在尝试创建一个通过将文档切分成句子,然后对句子中的…

如何合并DataFrame中的多个特征向量?

使用Spark ML变换器,我得到了一个DataFra…

在Spark MLlib中处理不平衡数据集

我正在处理一个高度不平衡数据集的二元分类问题,我想知道…

如何使用 RowMatrix.columnSimilarities(相似性搜索)

简而言之: 我试图基于一个现有的数据集(Seq[Wor…

为Spark ML的LabeledPoint添加自定义字段

如何在预测结果中添加一些自定义字段(例如用户ID)? …

Spark: 词语分类

我在Spark中关于词语分类有一个问题。我正在开发一个…

理解Spark MLlib中LinearRegressionWithSGD的Python示例有问题?

我对机器学习和Spark还是个新手,正在学习Spark…

算法/编码帮助:PySpark 马尔可夫模型

我需要一些帮助来设计一个(高效的)Spark 中的马尔…

Spark数据类型猜测UDAF

想要像这样做https://github.com/fi…