无法将MongoDB中的数组传递到需要向量的Spark机器学习函数中

我的用例: 从MongoDB集合中读取以下形式的数据:…

如何提供Spark MLlib模型服务?

我在评估用于生产环境的机器学习应用工具,其中一个选项是…

如何在Spark上安装和启动Mahout?

我对学习大数据的机器学习算法很感兴趣,为此我想学习如何…

在Spark MLlib中,LogisticRegressionWithSGD能否执行多分类任务?

我想使用LogisticRegressionWithS…

使用Spark ML构建推荐系统

我正在按照文档示例构建一个推荐系统,我创建ALS构造函…

从按唯一ID分组的数据框中提取前n条记录

我的数据集如下所示 如你所见,数据是按评分和用户ID排…

spark词频转换

我有一组句子中的词,已经进行了分词并应用了词频转换。 …

什么情况下不应该使用Spark MMLIB

我想了解在哪些情况下不应该使用Spark MMLIB。…

聚类场景:作为点之间相似性度量的两个点的计算成本之间的差异。这是否适用?

我想在聚类中的两个点之间有一个相似性的度量。这样计算出…

Spark中的求和出错

基于KMeans的非平衡因子?,我试图计算非平衡因子,…

pyspark : NameError: 名称 ‘spark’ 未定义

我正在从官方文档网站复制pyspark.ml的示例:h…

在PySpark中更改数据框列的值

我在Spark中有两个数据框,分别是train和tes…

为什么Spark的OneHotEncoder默认情况下会丢弃最后一个类别?

我想了解Spark的OneHotEncoder默认丢弃…

使用Spark ML进行文本分类

我有一段基于免费文本描述的分类需求。例如,描述可能是关…

KMeans的不平衡因子?

编辑:这个问题在以下链接中有详细讨论:Sum in S…

理解KMeans算法的质量

在阅读了KMeans的不平衡因子之后,我试图理解这是如…

Spark 1.6.2与Spark 2.0.0中的KMeans对比

我在一个我无法控制且将在一个月内放弃的环境中使用Kme…

如何将MLlib Apache Spark库安装到JAVA Eclipse项目中?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

如何在Java Spark中读取文本文件并将其转换为Dataset?

我想在我的Java Spark项目中读取两个包含数据的…

从序列平均预测下一个事件

我在机器学习方面还是新手,所以在尝试理解如何使用Spa…

在Spark中使用PySpark运行Python脚本

我开发了一个用于机器学习的Python脚本,现在我想在…

如何使用PySpark的FP-growth与RDD?

我想使用FP-growth来确定下面的RDD中是否存在…

发现没有H2O实例的执行器,已终止云集群

我使用Sparkling Water运行Tweedie…

Spark Decision tree fit 在单任务中运行

我正在尝试使用在Amazon EMR集群上运行的Apa…

在Spark MLlib中显示决策树并使用正确的特征名称

我在Spark MLLib中构建了一个决策树 val …