如何合并DataFrame中的多个特征向量?

使用Spark ML变换器,我得到了一个DataFra…

在Spark MLlib中处理不平衡数据集

我正在处理一个高度不平衡数据集的二元分类问题,我想知道…

如何使用 RowMatrix.columnSimilarities(相似性搜索)

简而言之: 我试图基于一个现有的数据集(Seq[Wor…

理解Spark MLlib中LinearRegressionWithSGD的Python示例有问题?

我对机器学习和Spark还是个新手,正在学习Spark…

Spark数据类型猜测UDAF

想要像这样做https://github.com/fi…

Spark MLlib LDA:始终生成非常相似LDA主题的可能原因?

我正在对从此处下载的各种语料库应用MLlib LDA示…

Spark MlLib线性回归(线性最小二乘法)结果随机

我刚开始学习Spark和机器学习。我成功地完成了Mll…

如何在MLBase中将分类变量转换为虚拟/指示变量

我在尝试使用MLBase中的逻辑回归模型来预测广告的点…

Apache Spark Mllib中的ALS机器学习算法中的rank是什么

我想尝试一个ALS机器学习算法的例子。我的代码运行得很…

如何从包含文本文件的输入目录创建RDD?

我在使用20个新闻组数据集。基本上,我有一个文件夹和n…

Apache Spark ALS推荐系统评分超出范围

我在Apache Spark网站上找到并运行了一个小型…

使用Mahout向量训练Spark的K-means

我在HDFS中有一些以序列文件格式存储的Mahout向…

如何在Spark MLLib中配置支持向量机的核选择和损失函数

我在AWS Elastic Map Reduce(EM…

apache spark MLLib: 如何为字符串特征构建标记点?

我正在尝试使用Spark的MLLib构建一个朴素贝叶斯…

使用Apache Spark进行Twitter情感分析

我正在尝试使用Apache Spark进行基本的Twi…

在Spark的MLlib中生成TFIDF时出现内存溢出异常

我在使用MLlib的朴素贝叶斯分类实现进行文档分类时,…

使用Spark并行化集合

我试图使用Spark并行化一个集合,但文档中的示例似乎…