在机器学习中特征数量过多是否会对回归产生不利影响?

我正在进行公寓特征的线性回归分析,并预测公寓的价格。目前,我已经收集了我所在城市13000个公寓的特征数据。我有23到25个特征,我不确定在预测公寓价格时使用这么多特征是否正常。

我有以下这些特征:
区域,街区,住宅小区,建造年份,房屋建筑材料,房间数量,楼层,总面积,生活面积,状态,地板材料,浴室类型,阳台,门类型,座机,网络连接类型,停车位可用性,家具可用性,天花板高度,安全性。

对于回归分析来说,这样的特征数量是否正常?这些特征是否适合进行公寓的线性回归分析?也许应该减少特征数量,删除一些冗余的特征?在我的案例中(公寓价格预测),大量的特征是否可能导致过拟合?


回答:

@***,不错的开始!

是的,拥有这么多特征是很常见的:收集你认为可能需要的所有数据,然后通过分析工具(或个人努力)来建议哪些是不需要的。缺少的数据是很难补上的。

你可以先用一个线性回归模型来运行这些数据。如果你没有这样的模型,可以对每个特征与价格进行相关性系数分析;这可以让你剔除那些接近0的特征(显然没有影响)。

之后,对所有剩余特征进行完整的相关矩阵分析;那些sigma接近+1.00或-1.00的特征表明你可以删除其中一个:它们之间的预测效果很好,因此不需要同时保留两个。

SKLearn很好,SciKit也不错。如果你知道如何编写底层的矩阵方程,Octave和MatLib也非常优秀。

我还可以推荐开源软件包TrustedAnalytics(我是该项目的软件负责人之一)。Python API对数据科学非常有用,但它确实是一个大数据包:它建立在你可能没有的其他工具之上。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注