文本分类 – 如何处理

我会尽力描述我的想法。 在MS SQL数据库中存储了文…

Spark mllib LinearRegression 奇怪的结果

我从一个示例开始尝试进行线性回归。问题是我得到了错误的…

在PySpark中运行Word2Vec示例时遇到错误

我尝试运行文档中给出的非常简单的Word2Vec示例,…

多标签的Logistic Regression在PySpark MLlib中的问题

我在尝试创建一个LogisticRegression模…

如何在pyspark中使用LogisticRegressionWithLBFGS打印预测的概率

我正在使用Spark 1.5.1,在pyspark中,…

coreNLP严重拖慢Spark作业`

我正在尝试创建一个通过将文档切分成句子,然后对句子中的…

如何合并DataFrame中的多个特征向量?

使用Spark ML变换器,我得到了一个DataFra…

在Spark MLlib中处理不平衡数据集

我正在处理一个高度不平衡数据集的二元分类问题,我想知道…

如何使用 RowMatrix.columnSimilarities(相似性搜索)

简而言之: 我试图基于一个现有的数据集(Seq[Wor…

为Spark ML的LabeledPoint添加自定义字段

如何在预测结果中添加一些自定义字段(例如用户ID)? …

Spark: 词语分类

我在Spark中关于词语分类有一个问题。我正在开发一个…

理解Spark MLlib中LinearRegressionWithSGD的Python示例有问题?

我对机器学习和Spark还是个新手,正在学习Spark…

算法/编码帮助:PySpark 马尔可夫模型

我需要一些帮助来设计一个(高效的)Spark 中的马尔…

Spark数据类型猜测UDAF

想要像这样做https://github.com/fi…

Spark MLlib LDA:始终生成非常相似LDA主题的可能原因?

我正在对从此处下载的各种语料库应用MLlib LDA示…

Apache Spark 在小数据集上进行迭代模型拟合的使用案例

我刚开始接触 Apache Spark,并一直在研究其…

spark word2vec窗口大小

有没有办法更改pyspark.mllib.featur…

可以使用逻辑回归算法基于历史数据预测给定任务的预计到达时间(ETA)吗?

我能否使用逻辑回归算法基于历史数据预测给定任务的预计到…

如何将elastic4s的ElasticSearch客户端序列化以与Spark RDD一起运行?

目前我在数百万用户和产品上运行Spark Mllib的…

使用Spark和Python中的决策树算法进行分析时遇到的问题

我正在为电信行业进行流失分析,并拥有一个样本数据集。我…

使用Silhouette聚类在Spark中

我想在Spark中使用KMeans聚类时,通过Silh…

在Spark上递归构建决策树时,是否需要保存中间数据子集?

我在一个50节点的集群上使用Scala/Spark构建…

Spark MlLib线性回归(线性最小二乘法)结果随机

我刚开始学习Spark和机器学习。我成功地完成了Mll…

如何在MLBase中将分类变量转换为虚拟/指示变量

我在尝试使用MLBase中的逻辑回归模型来预测广告的点…

Apache Spark Mllib中的ALS机器学习算法中的rank是什么

我想尝试一个ALS机器学习算法的例子。我的代码运行得很…