机器学习的数据准备阶段是否应包括将数据拟合到正确分布后再进行缩放?

已关闭。 此问题不符合 Stack Overflow …

清理CSV文件中的数据以用于机器学习模型

我在jupyterlab中尝试通过观看几个教程来清理我…

如何从大型数据集中删除不相关文本数据

已关闭。 此问题不符合 Stack Overflow …

如何在Python中删除与X列中删除的异常值对应的Y值

我在建模前使用以下方法删除了X变量中的异常值: z =…

如何处理预处理数据中包含大约300K个类别的列?

我的数据集中有一列在9700行中包含了约275个类别。…

故障排除ML.NET机器学习模型问题

我正在尝试了解ML.Net的工作原理。我之前没有机器学…

如何使用预训练模型填充缺失值?

我有一个包含几个变量和湿度读数的时间序列索引。我已经训…

清理测试数据是否重要?

在训练数据中,我进行了特征工程并清理了我的数据。是否有…

如何在Pandas数据框中展开包含多个字典的列表

我有一个如下所示的数据集(在数据框中): **_id*…

Pandas:使用索引值切片数据框

已关闭。 此问题需要调试详情。目前不接受回答。 编辑问…

如何选择并替换列中相似的出现情况

我正在为一个课程的机器学习项目工作。目前我在清理数据时…

如何在PyTorch中使用WeightedRandomSampler平衡(过采样)不平衡数据?

我有一个两类问题,我的数据非常不平衡。其中一类有232…

如何按顺序标记Pandas中的分类变量?

我有一个pandas数据框,左侧是以下分类变量的列,右…

处理逻辑回归中的NaN(缺失)值 – 最佳实践?

我正在处理一组患者信息数据集,并尝试使用MATLAB从…

如果我在训练数据上进行数据预处理,是否有必要在测试数据上也进行相同的处理?

例如,如果我计算了训练数据的mean和variance…

如何处理98%的列值为null的数据集?

我想在服务器宕机之前预测其宕机时间。为了实现这一目标,…

清理文本数据用于NLP任务

今天早上我试图用康奈尔电影对话语料库数据集训练一个聊天…

使用Weka将数值属性值设置为null

我已经开发了一个用于回归的模型。现在我需要提供一个数据…

如何使用Weka API在Java中将字符串属性转换为名义属性

我在Weka API中加载了一个数据集(weka3 I…

如何识别200多个数值变量中的分类变量?

我有一个数据集,其中包含200多个数值变量(类型:in…

如何使用Wolfram Mathematica修改列中的数据?

我正在处理一个Dataset对象,其中包含一个名为Pr…

如何检测数据库中的异常数据点

我目前有一个数据库,其中包含一些标记错误的价格数据。 …

为使用聚类准备数据

数据集:我得到了每个客户每天使用产品的分钟数,试图通过…

如何从CountVectorizer中过滤特征?

我在进行文本分析(主题建模),当我使用CountVec…