Home IT技术 如何处理数据集中匿名变量以获得更好的预测 如何处理数据集中匿名变量以获得更好的预测 IT技术 xiaolong · 2025年5月26日 · 0 Comment 我的数据集中有如下的4个匿名变量,并且目标变量也是匿名的: 请问有人能告诉我如何在机器学习中处理匿名特征吗?从这些匿名变量进行特征工程的最佳方法是什么?我如何能通过这些特征来提高我的预测效果? 回答: 你应该进行以下几个步骤: 1- 对数值特征进行缩放,对分类特征进行独热编码(你也可以用分类变量的出现次数进行编码,即用每个值的计数来替换它) 2- 研究目标变量与其他变量之间的相关性 3- 使用不同的图表来更好地了解你的数据 4- 在建模时使用变量选择方法 相关文章: 在 scikit-learn 中,fit()、fit_transform() 和 transform() 有什么区别? [duplicate] pyspark.ml pipelines: 基本预处理任务是否需要自定义转换器? 如何在GridSearchCV中对数据进行标准化? 如何将数据库中的员工职称匹配以简化名称 为什么我在参数调优时的平均测试分数(交叉验证)低于保留测试集上的分数(RandomForestClassifier)? 使用Python对CSV文件进行训练-测试拆分 比较Pandas数据框的列名 有人能告诉我最后一个循环在做什么吗? 评分系统 – 输入特性 基于使用产品的客户细分应使用哪种机器学习模型 data-science machine-learning python