使用K-Means聚类一维或多维数据?

我正在处理来自BigData Challenge的数据…

为什么Spark的OneHotEncoder默认情况下会丢弃最后一个类别?

我想了解Spark的OneHotEncoder默认丢弃…

使用不完整数据进行机器学习

我有一百万个样本,样本中大约有1000个特征。然而,每…

KMeans的不平衡因子?

编辑:这个问题在以下链接中有详细讨论:Sum in S…

在多维数据中检测常见特征

我正在设计一个异常检测系统。 构建此类系统有多种方法。…

在Spark中使用PySpark运行Python脚本

我开发了一个用于机器学习的Python脚本,现在我想在…

如何在内存容量不足的情况下训练神经网络?

尝试使用大量数据来训练带有循环层的分类器,结果发现所有…

为使用聚类准备数据

数据集:我得到了每个客户每天使用产品的分钟数,试图通过…

在RStudio中无法处理大型文件

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

ValueError: ‘max’ 不是支持的范数

我使用 sklearn.preprocessing.n…

ImportError: 无法导入名称 VarianceThreshold

scikit-learn 似乎可以正常工作,但在执行以…

数据集中重复数据有用吗?

我下载了皮肤分割数据集,发现其中包含了大量的重复数据。…

Spark数据类型猜测UDAF

想要像这样做https://github.com/fi…

大数据问题的解决方法有哪些?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

如何从包含文本文件的输入目录创建RDD?

我在使用20个新闻组数据集。基本上,我有一个文件夹和n…

如何对内存不足的矩阵进行向量运算

如何对大小为6GB的矩阵进行计算,而内存只有4GB?在…

数据集大小对机器学习算法有影响吗?

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

在Apache Spark中使用Java实现决策树的问题

我正在尝试使用Java和Apache Spark 1….

关于使用Mahout与Hadoop的使用说明

我目前使用Mahout的内存推荐API实现了一个推荐器…

处理大型(GB级)文件的快速多次处理(Java)

处理大型文件时,有哪些快速多次处理的选项? 我有一个单…

Vowpal Wabbit能处理大约90 GB的数据吗?

我们从搜索引擎查询日志数据中提取了特征,根据Vowpa…

大数据与数据挖掘有什么区别?

已关闭。此问题属于基于意见的问题。目前不接受回答。 想…

使用MATLAB神经网络工具箱对超大数据集进行批量训练

我想使用MATLAB神经网络工具箱对KTH数据集进行语…

Mahout+Hadoop在Windows上的使用

我想使用大规模的机器学习算法,并希望使用Mahout来…

从多个并行线程读取大型数据集的性能

我正在开发一个基于.Net的遗传机器学习项目(与我常用…