使用reduceByKey()替代groupByKey()

这是对这里的跟进问题。我正在尝试基于这个实现来实现k-…

如何将linalg.Vector转换为regression.LabeledPoint格式?

我在spark-shell中尝试实现一个简单的机器学习…

高效从文本中提取WikiData实体

我有大量的文本(数百万),每个文本的长度在100到40…

KMeans||用于Spark上的情感分析

我正在尝试基于Spark编写一个情感分析程序。为此,我…

Spark mllib LinearRegression 奇怪的结果

我从一个示例开始尝试进行线性回归。问题是我得到了错误的…

最快的句子词形还原方法

我目前正在构建一个分类管道,现在发现corenlp词形…

coreNLP严重拖慢Spark作业`

我正在尝试创建一个通过将文档切分成句子,然后对句子中的…

如何使用 RowMatrix.columnSimilarities(相似性搜索)

简而言之: 我试图基于一个现有的数据集(Seq[Wor…

从FlinkML多元线性回归中提取权重

我在运行Flink(0.10-SNAPSHOT)的多元…

如何将elastic4s的ElasticSearch客户端序列化以与Spark RDD一起运行?

目前我在数百万用户和产品上运行Spark Mllib的…

在Spark上递归构建决策树时,是否需要保存中间数据子集?

我在一个50节点的集群上使用Scala/Spark构建…

如何在MLBase中将分类变量转换为虚拟/指示变量

我在尝试使用MLBase中的逻辑回归模型来预测广告的点…

Spark MLib 矩阵乘法

我在Spark控制台中尝试了以下代码 import o…

Apache Spark K-Means聚类 – 输入使用RDD

我试图对分组数据运行Spark的k-means聚类,但…

为什么在Spark中,lines.map不起作用,而lines.take.map却能工作?

我是Scala和Spark的新手。 我正在练习使用Sp…

如何将一段中文文本拆分成单个字符?

我正在进行一个机器学习项目,构建一个针对中文文本的朴素…

Scala支持向量机库

我需要一个Scala的支持向量机库。 我想我应该看看S…

使用MMLSpark的Scala LIME库解释模型时出现异常

我正在尝试使用MMLSpark的Lime包为Scala…

Minimax在Scala中的应用

我正在尝试将维基百科上的Minimax算法调整为我在S…

模拟二进制交叉(SBX)在Scala遗传算法(GA)库中的交叉算子

我在一个非常小的研究团队中工作,我们正在创建/调整一个…

将高度自治的参与者视为代理是否合理?

我来自多代理系统(使用JADE在Java中开发)的学术…