分类特征相关性

我的数据中包含了一些分类特征和连续特征。将分类特征进行…

遍历数据框

我有多个训练和测试数据框。 例如:train1, tr…

如何向CountVectorizer添加权重因子

我对数据科学还比较新手。我正在尝试使用LDA解决NLP…

如何在Python中对无标题的大型信号CSV文件进行分类?

我有一个大型的CSV文件(3000行*20000列),…

如何从Pandas的DatetimeIndex中获取滚动窗口内的持续时间

我正在尝试计算此数据中每个滑动窗口内的持续时间: ID…

如何在数据框列的滚动窗口中统计相同实例的数量

我试图在以下数据的每个滑动窗口内统计相同ID的数量: …

逆标准化

如果我使用以下方法对数据集进行了标准化处理: data…

预测值 机器学习 Python,如何将它们重新加入到集合中?

我在使用Python进行机器学习模型的开发。我试图预测…

### Numpy np.newaxis

已关闭。此问题需要更多细节或更清晰。目前不接受回答。 …

如何将我的索引向量转换为可用于sklearn的稀疏特征向量?

我正在开发一个新闻推荐系统,需要为用户和他们阅读的新闻…

如何分割数据?

假设我的数据框中有1010行数据。现在我想使用 tra…

无法获取用户的几率 – 贝叶斯定理

我试图使用混淆矩阵解决一个相当基础的问题,但我的解决方…

Pandas – KeyError: ‘[] not in index’ 在训练 Keras 模型时出现

我在尝试基于数据集的部分特征训练一个 Keras 模型…

encoding/factoring lists in pandas dataframe

我正在尝试通过因子化来编码数据框中的类别列表。之后,我…

Python Pandas: 如何根据另一个数组的条件替换DataFrame中的值

我有一个如下所示的DataFrame。两个列都包含Me…

为什么pandas分类DataFrame会导致真值错误?

我的数据包含一个名为’Married&#8…

Pandas apply在两列上进行操作并在一行中替换它们

我正在尝试提高我的代码性能,我想对数据框的两列进行分词…

如何在RNN TensorFlow中使用超大数据集?

我有一个非常大的数据集:7.9 GB的CSV文件。其中…

如何优化大数据集的标签编码(sci-kit learn)

我正在使用sci-kit learn的标签编码类,将一…

在Python中实现线性回归

我刚开始学习使用Siraj Raval在YouTube…

使用Pandas进行机器学习数据预处理

我是机器学习的新手。我正在尝试使用pandas/ten…

决策树回归模型的交叉验证得分为负

我在使用交叉验证方法评估一个决策树回归预测模型时遇到了…

使用Pandas在Python中进行多行计算的特征工程

我有以下格式的CSV数据: +————…

如何为训练集和测试集获取虚拟变量?

我想为训练集和测试集的分类字段创建虚拟变量,然后仅在训…

Scikit Learn – ValueError: 操作数无法一起广播

我在尝试对数据集应用Gaussian Naive Ba…