处理分类变量时会导致数据泄漏吗?

已关闭。 此问题不符合 Stack Overflow …

如何在训练数据和测试数据最终特征不同时应用相同的处理流程

我正在尝试创建一个回归模型来预测一些房屋销售情况,但在…

np.where: “ValueError: operands could not be broadcast together with shapes (38658637,) (9456,)”

我有两个形状不同的数据框: df_rts_1 #形状:…

在训练数据集上拟合的MinMaxScaler是否应该用于转换测试数据集,还是应该使用单独的MinMaxScaler来拟合并转换测试数据集?

假设我在一个机器学习问题中有3个数据集。 训练数据集:…

理解应用MinMaxScaler后的百分比变化效果?

我想知道在使用scikitlearn的MinMaxSc…

如何处理固定长度列表的预处理?

我想使用以下数据训练我的回归模型,并使用sklearn…

在独热编码后,数据框中的行数减少了

我有一个数据集,我想使用sklearn.preproc…

如何在Python中结合文本特征和分类特征?

我正在尝试构建一个管道来分别转换和编码文本和分类特征,…

Numpy – 标准化RGB图像数据集

我的数据集是一个Numpy数组,维度为(N, W, H…

训练/验证/测试中标准化或归一化参数的使用

最佳做法是标准化/归一化训练集,然后使用其参数(归一化…

将整数编码转换为二进制编码的需要是什么?

将整数编码转换为二进制编码的需要是什么?我查阅了不同的…

为什么Python的’StandardScaler’和Matlab的’zscore’标准化方法不同?

为什么Python中sklearn.preproces…

为训练准备数据

我正在尝试通过创建字符文本的一热编码来准备数据文件,以…

如何在RNN TensorFlow中使用超大数据集?

我有一个非常大的数据集:7.9 GB的CSV文件。其中…

### 用于自编码器的数据预处理技巧

最近,我尝试使用自编码器来发现异常,但输入的某些特征是…

在机器学习中,从多维空间中选择多样化数据子集的方法?

我在考虑创建一个尽可能多样化的训练集,同时将数据压缩到…

如何使用监督机器学习方法处理不同维度的输入?

我目前正在处理训练和测试数据集(一组数组),这些数组的…

何时应用数据白化

数据白化(特征缩放和均值归一化)在我们使用代表不同特征…

如何在机器学习中处理带有其他属性的时间序列数据?

我正在处理一个二分类问题,每个数据实例包含多个不同指标…

解析非均匀数据

我正在尝试解析一组数据,这些数据包含两部分(或一部分)…

使用GPT-3.5和嵌入技术在大规模数据处理中表现卓越

我正在尝试将OpenAI的功能,特别是GPT3.5和嵌…

在机器学习中,AUC是否比准确率更适合作为不平衡数据集的评估指标?如果不是,哪个是最佳评估指标?

在处理不平衡数据时,AUC是否更有效?因为在大多数情况…

机器学习数据预处理

已关闭。此问题属于基于意见的问题,目前不接受回答。 想…