feature-engineering

IT技术

如何对特定特征执行目标引导编码，排除’nan’值？

xiaolong · 2025年6月1日 · 0 Comment

from category_encoders impo…

IT技术

如何在PySpark中为数据框的记录/行分配统计频率，而不使用.toPandas()方法？

xiaolong · 2025年6月1日 · 0 Comment

我是PySpark的新手，我想将包括编码和归一化部分的…

IT技术

对于这个数据集，哪种特征选择技术比较合适？

xiaolong · 2025年6月1日 · 0 Comment

已关闭。此问题属于基于意见的问题，目前不接受回答。想…

IT技术

在计算KNN填补方法中特定列中NaN值的”距离平均值”时

xiaolong · 2025年5月31日 · 0 Comment

当我从头开始实现KNN填补方法来处理缺失数据时，我遇到…

IT技术

使用tidymodels工作流预测测试集时出现“列中缺少数据”错误

xiaolong · 2025年5月31日 · 0 Comment

最近我在学习使用tidymodels构建机器学习工作流…

IT技术

将包含字典值的字典列表转换为机器学习特征

xiaolong · 2025年5月31日 · 0 Comment

我想将Google Vision API面部识别的输出…

IT技术

从DataFrame列中的字符串中提取日期时间信息

xiaolong · 2025年5月30日 · 0 Comment

我的“版本”列包含数据模式不一致，有些数据后面跟着逗号…

IT技术

估计二项分布参数作为机器学习特征

xiaolong · 2025年5月30日 · 0 Comment

我正在处理遗传数据，其中等位基因在t个测序的染色体中被…

IT技术

在Python中进行对象列操作

xiaolong · 2025年5月29日 · 0 Comment

我有一份关于Google Playstore数据的数据…

IT技术

如何创建包含内置scikit-learn变换器、自定义变换器的预处理管道，其中一个变换器用于特征工程？

xiaolong · 2025年5月29日 · 0 Comment

我正在使用的数据集： https://www.kagg…

IT技术

XGBoost特征重要性较高的特征却导致准确率较低

xiaolong · 2025年5月28日 · 0 Comment

我的模型有六个特征 f1,f2,f3,f4,f5 an…

IT技术

如何选择或优化标签以获得更好的多类分类结果？

xiaolong · 2025年5月28日 · 0 Comment

最近我在做一个Kaggle项目“Prudential …

IT技术

二元分类与字符/字符串特征

xiaolong · 2025年5月28日 · 0 Comment

我目前正在处理一个与蛋白质相关的二元分类问题。目标是确…

IT技术

在LabelEncoding之后进行OneHotEncoding

xiaolong · 2025年5月27日 · 0 Comment

在Sklearn中，如何在LabelEncoding之…

IT技术

sklearn中的哈希技巧FeatureHasher

xiaolong · 2025年5月27日 · 0 Comment

为了理解“哈希技巧”，我编写了以下测试代码： impo…

IT技术

在单一特征中保留顺序信息

xiaolong · 2025年5月27日 · 0 Comment

以下是我试图进行特征工程的数据集的一列： +—+-…

IT技术

实现Scikit Learn的FeatureHasher处理高基数数据

xiaolong · 2025年5月27日 · 0 Comment

背景：我正在进行健康保险索赔的二元分类工作。我处理的…

IT技术

将聚类输出拟合到机器学习模型中

xiaolong · 2025年5月27日 · 0 Comment

这只是一个机器学习/数据科学问题。 a) 假设我有一个…

IT技术

LabelEncoding() vs OneHotEncoding() (sklearn,pandas) 建议

xiaolong · 2025年5月26日 · 0 Comment

我的数据框df中有三种类型的分类数据。 df[‘Veh…

IT技术

如何处理二元分类问题中的多标签分类特征？

xiaolong · 2025年5月26日 · 0 Comment

我的数据集如下： profile category t…

IT技术

使用featuretools中的截止时间进行预测

xiaolong · 2025年5月25日 · 0 Comment

我正在构建一个模型，用于根据用户的阅读历史等活动来预测…

IT技术

聚合独热编码

xiaolong · 2025年5月25日 · 0 Comment

我收集了关于天气预报的小时数据。我收集的特征包括数值型…

IT技术

如何根据列中包含的值过滤Spark Dataframe？

xiaolong · 2025年5月24日 · 0 Comment

在我的数据集中，某些字符串列包含None或NA值，我想…

IT技术

对数值特征进行分箱后该怎么办？

xiaolong · 2025年5月24日 · 0 Comment

我想知道在完成分箱操作后应该怎么做。例如，其中一个特征…

学技术

如何对特定特征执行目标引导编码，排除’nan’值？

如何在PySpark中为数据框的记录/行分配统计频率，而不使用.toPandas()方法？

对于这个数据集，哪种特征选择技术比较合适？

在计算KNN填补方法中特定列中NaN值的”距离平均值”时

使用tidymodels工作流预测测试集时出现“列中缺少数据”错误

将包含字典值的字典列表转换为机器学习特征

从DataFrame列中的字符串中提取日期时间信息

估计二项分布参数作为机器学习特征

在Python中进行对象列操作

如何创建包含内置scikit-learn变换器、自定义变换器的预处理管道，其中一个变换器用于特征工程？

XGBoost特征重要性较高的特征却导致准确率较低

如何选择或优化标签以获得更好的多类分类结果？

二元分类与字符/字符串特征

在LabelEncoding之后进行OneHotEncoding

sklearn中的哈希技巧FeatureHasher

在单一特征中保留顺序信息

实现Scikit Learn的FeatureHasher处理高基数数据

将聚类输出拟合到机器学习模型中

相关性在无监督学习（聚类）中是否重要因素？

LabelEncoding() vs OneHotEncoding() (sklearn,pandas) 建议

如何处理二元分类问题中的多标签分类特征？

使用featuretools中的截止时间进行预测

聚合独热编码

如何根据列中包含的值过滤Spark Dataframe？

对数值特征进行分箱后该怎么办？