随机特征映射

我在学习机器学习课程,在练习2的第二部分中,我们应该使用特征映射。他们通过将特征映射到x1和x2的所有多项式项中,最高达到六次幂,来添加新特征。然而,我的导师告诉我我不应该使用这种算法,而是应该随机添加特征。但是,我们添加新特征是为了更好地分类。那么,随机添加特征不是会使问题变得更加复杂吗?所以我们可以随机添加特征,还是应该遵循一些规则?


回答:

添加新特征(例如现有特征的多项式)有助于通过使用复杂的假设来减少错误。但这可能会导致过度拟合训练数据,并且在测试集上可能无法产生有效的结果。

因此,为了添加新特征,应考虑以下几点:

1)通过分析结果手动选择保留哪些特征。

2)另一种方法是使用所有特征,然后使用正则化,这将自动降低对贡献较小的特征的重要性,并增加对目标变量贡献较大的特征的重要性。

3)随机选择特征可能并非总是有帮助的。总是需要选择那些对目标变量贡献更大的特征。随机选择可能不是合适的解决方案。

重要说明

在训练过程中,始终使用验证集来检查错误。在处理多项式特征时,始终检查学习曲线以确保模型不会过度拟合训练数据。如果发生这种情况,尝试增加正则化参数(lambda)。正则化有助于减少过度拟合。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注