如何从大量学生成绩数据中获取前 N 名最高分者的姓名?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

### 6 GB RAM 在使用 Word2Vec 向量化文本时失败

我正在尝试使用 Word2Vec 和 TF-IDF 评…

R biglasso结果与hdm或glmnet不匹配

我一直在尝试使用R包’biglasso&#…

机器学习模型的工业生产参数

我开始为一家食品公司撰写硕士论文。他们从几种原料开始,…

如何在Scikit-Learn中逐批拟合数据?

我有一个超大的数据集(超过1 TB),我想使用Scik…

从Dask数据框中获取一行而不将整个数据框加载到内存中

是否可以让Dask一次只将一行加载到内存中?我有一个巨…

独热编码是否能避免虚拟变量陷阱

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

使用Pyspark训练非线性SVC模型

有没有办法使用Pyspark来训练一个非线性SVC模型…

使用Matlab和R计算数据集的PCA但得到的各成分方差不同

我试图使用PCA来可视化一个具有5个特征的数据集。我同…

使用Python加载和随机打乱8GB的CSV数据

基本上,我有8GB的CSV数据,我想随机打乱它,以便在…

如何使用MySQL数据库作为机器学习的数据集

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

将文本数据转换为SVM文件格式用于垃圾邮件分类?

如何将文本数据转换为LibSVM文件格式以训练垃圾邮件…

学习算法的准确性在特征平均后下降

我有一个庞大的数据集需要清理。在这个数据集中,有6列代…

在现有 SQL Server 2017 中添加 Python 和机器学习功能的机器学习服务

如何在现有的 SQL Server 2017 中添加带…

验证集是否用于更新神经网络?

我有一个关于神经网络的问题 假设我有60个训练样本,2…

how to quantile-discretize on spark?

我想将RDD[Float]分成10个部分进行分位数离散…

在Spark集群下运行C++应用程序

我在做学校项目。有一个用C++编写的视频重复检测应用程…

xgboost: 尽管准确率合理,但对数损失巨大

我在一个二分类问题上训练了一个xgboost分类器。它…

回归分析中的分层抽样

我需要在大数据集上使用SVM核进行回归分析。我的笔记本…

如何将欧几里得距离转换到0到1的范围内,类似于余弦相似度?

希望将欧几里得距离映射到[0, 1]的范围内,有点像向…

使用TensorFlow和Python进行价值预测

我有一个包含股票价格列表的数据集。我需要使用Tenso…

余弦相似度,两个不同的向量但结果接近1? [duplicate]

这个问题已经有了答案: 为什么两个向量不相似但结果是1…

如何在TensorFlow中使用无法一次性加载到内存的大数据集?

我想使用一个无法一次性加载到内存的数据集来训练Tens…

PCA和SVD在像MLlib或Mahout这样的库中的分布情况

我了解降维技术,如PCA或SVD。 我想了解这些技术在…

如何在Spark上安装和启动Mahout?

我对学习大数据的机器学习算法很感兴趣,为此我想学习如何…