bigdata – 第 2 页

IT技术

使用K-Means聚类一维或多维数据？

xiaolong · 2025年4月12日 · 0 Comment

我正在处理来自BigData Challenge的数据…

IT技术

为什么Spark的OneHotEncoder默认情况下会丢弃最后一个类别？

xiaolong · 2025年4月12日 · 0 Comment

我想了解Spark的OneHotEncoder默认丢弃…

IT技术

使用不完整数据进行机器学习

xiaolong · 2025年4月12日 · 0 Comment

我有一百万个样本，样本中大约有1000个特征。然而，每…

IT技术

KMeans的不平衡因子？

xiaolong · 2025年4月11日 · 0 Comment

编辑：这个问题在以下链接中有详细讨论：Sum in S…

IT技术

在多维数据中检测常见特征

xiaolong · 2025年4月11日 · 0 Comment

我正在设计一个异常检测系统。构建此类系统有多种方法。…

IT技术

在Spark中使用PySpark运行Python脚本

xiaolong · 2025年4月10日 · 0 Comment

我开发了一个用于机器学习的Python脚本，现在我想在…

IT技术

如何在内存容量不足的情况下训练神经网络？

xiaolong · 2025年4月10日 · 0 Comment

尝试使用大量数据来训练带有循环层的分类器，结果发现所有…

IT技术

为使用聚类准备数据

xiaolong · 2025年4月10日 · 0 Comment

数据集：我得到了每个客户每天使用产品的分钟数，试图通过…

IT技术

在RStudio中无法处理大型文件

xiaolong · 2025年4月9日 · 0 Comment

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

IT技术

ValueError: ‘max’ 不是支持的范数

xiaolong · 2025年4月9日 · 0 Comment

我使用 sklearn.preprocessing.n…

IT技术

ImportError: 无法导入名称 VarianceThreshold

xiaolong · 2025年4月9日 · 0 Comment

scikit-learn 似乎可以正常工作，但在执行以…

IT技术

数据集中重复数据有用吗？

xiaolong · 2025年4月8日 · 0 Comment

我下载了皮肤分割数据集，发现其中包含了大量的重复数据。…

IT技术

Spark数据类型猜测UDAF

xiaolong · 2025年4月8日 · 0 Comment

想要像这样做https://github.com/fi…

IT技术

大数据问题的解决方法有哪些？

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

如何从包含文本文件的输入目录创建RDD？

xiaolong · 2025年4月7日 · 0 Comment

我在使用20个新闻组数据集。基本上，我有一个文件夹和n…

IT技术

如何对内存不足的矩阵进行向量运算

xiaolong · 2025年4月7日 · 0 Comment

如何对大小为6GB的矩阵进行计算，而内存只有4GB？在…

IT技术

数据集大小对机器学习算法有影响吗？

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

在Apache Spark中使用Java实现决策树的问题

xiaolong · 2025年4月7日 · 0 Comment

我正在尝试使用Java和Apache Spark 1….

IT技术

关于使用Mahout与Hadoop的使用说明

xiaolong · 2025年4月7日 · 0 Comment

我目前使用Mahout的内存推荐API实现了一个推荐器…

IT技术

处理大型（GB级）文件的快速多次处理（Java）

xiaolong · 2025年4月7日 · 0 Comment

处理大型文件时，有哪些快速多次处理的选项？我有一个单…

IT技术

Vowpal Wabbit能处理大约90 GB的数据吗？

xiaolong · 2025年4月7日 · 0 Comment

我们从搜索引擎查询日志数据中提取了特征，根据Vowpa…

IT技术

大数据与数据挖掘有什么区别？

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题属于基于意见的问题。目前不接受回答。想…

IT技术

使用MATLAB神经网络工具箱对超大数据集进行批量训练

xiaolong · 2025年4月7日 · 0 Comment

我想使用MATLAB神经网络工具箱对KTH数据集进行语…

IT技术

Mahout+Hadoop在Windows上的使用

xiaolong · 2025年4月7日 · 0 Comment

我想使用大规模的机器学习算法，并希望使用Mahout来…

IT技术

从多个并行线程读取大型数据集的性能

xiaolong · 2025年4月7日 · 0 Comment

我正在开发一个基于.Net的遗传机器学习项目（与我常用…