如何对特定特征执行目标引导编码,排除’nan’值?

from category_encoders impo…

如何在PySpark中为数据框的记录/行分配统计频率,而不使用.toPandas()方法?

我是PySpark的新手,我想将包括编码和归一化部分的…

对于这个数据集,哪种特征选择技术比较合适?

已关闭。此问题属于基于意见的问题,目前不接受回答。 想…

在计算KNN填补方法中特定列中NaN值的”距离平均值”时

当我从头开始实现KNN填补方法来处理缺失数据时,我遇到…

使用tidymodels工作流预测测试集时出现“列中缺少数据”错误

最近我在学习使用tidymodels构建机器学习工作流…

将包含字典值的字典列表转换为机器学习特征

我想将Google Vision API面部识别的输出…

从DataFrame列中的字符串中提取日期时间信息

我的“版本”列包含数据模式不一致,有些数据后面跟着逗号…

估计二项分布参数作为机器学习特征

我正在处理遗传数据,其中等位基因在t个测序的染色体中被…

在Python中进行对象列操作

我有一份关于Google Playstore数据的数据…

如何创建包含内置scikit-learn变换器、自定义变换器的预处理管道,其中一个变换器用于特征工程?

我正在使用的数据集: https://www.kagg…

XGBoost特征重要性较高的特征却导致准确率较低

我的模型有六个特征 f1,f2,f3,f4,f5 an…

如何选择或优化标签以获得更好的多类分类结果?

最近我在做一个Kaggle项目“Prudential …

二元分类与字符/字符串特征

我目前正在处理一个与蛋白质相关的二元分类问题。目标是确…

在LabelEncoding之后进行OneHotEncoding

在Sklearn中,如何在LabelEncoding之…

sklearn中的哈希技巧FeatureHasher

为了理解“哈希技巧”,我编写了以下测试代码: impo…

在单一特征中保留顺序信息

以下是我试图进行特征工程的数据集的一列: +—+-…

实现Scikit Learn的FeatureHasher处理高基数数据

背景: 我正在进行健康保险索赔的二元分类工作。我处理的…

将聚类输出拟合到机器学习模型中

这只是一个机器学习/数据科学问题。 a) 假设我有一个…

相关性在无监督学习(聚类)中是否重要因素?

我正在处理一个大小为(500, 33)的数据集。 特别…

LabelEncoding() vs OneHotEncoding() (sklearn,pandas) 建议

我的数据框df中有三种类型的分类数据。 df[‘Veh…

如何处理二元分类问题中的多标签分类特征?

我的数据集如下: profile category t…

使用featuretools中的截止时间进行预测

我正在构建一个模型,用于根据用户的阅读历史等活动来预测…

聚合独热编码

我收集了关于天气预报的小时数据。我收集的特征包括数值型…

如何根据列中包含的值过滤Spark Dataframe?

在我的数据集中,某些字符串列包含None或NA值,我想…

对数值特征进行分箱后该怎么办?

我想知道在完成分箱操作后应该怎么做。例如,其中一个特征…