Home IT技术分类模型的训练集中应不应该包括两个相互依赖的特征？

分类模型的训练集中应不应该包括两个相互依赖的特征？

IT技术 xiaolong · 2025年5月1日 · 0 Comment

我刚刚开始数据科学的旅程，如果这个问题显得愚蠢，请原谅我。在一个数据集中，如果有两个相互依赖的列，比如“票价”和“座位类型”，那么我们应该在训练集中同时包括这两个特征吗，还是只包括其中一个就足够了？

回答：

这两个特征的依赖性有多强？换句话说，同时包括这两个特征是否能获得额外的信息？如果其中一个可以直接从另一个计算出来（就像你的例子中，我猜测票价可以直接从座位类型推断出来），那么你不会获得任何额外的信息，可以省略其中一个特征，因为它们是冗余的。

machine-learning

发表回复取消回复