在机器学习中特征数量过多是否会对回归产生不利影响？

我正在进行公寓特征的线性回归分析，并预测公寓的价格。目前，我已经收集了我所在城市13000个公寓的特征数据。我有23到25个特征，我不确定在预测公寓价格时使用这么多特征是否正常。

我有以下这些特征：
区域，街区，住宅小区，建造年份，房屋建筑材料，房间数量，楼层，总面积，生活面积，状态，地板材料，浴室类型，阳台，门类型，座机，网络连接类型，停车位可用性，家具可用性，天花板高度，安全性。

对于回归分析来说，这样的特征数量是否正常？这些特征是否适合进行公寓的线性回归分析？也许应该减少特征数量，删除一些冗余的特征？在我的案例中（公寓价格预测），大量的特征是否可能导致过拟合？

回答：

@***，不错的开始！

是的，拥有这么多特征是很常见的：收集你认为可能需要的所有数据，然后通过分析工具（或个人努力）来建议哪些是不需要的。缺少的数据是很难补上的。

你可以先用一个线性回归模型来运行这些数据。如果你没有这样的模型，可以对每个特征与价格进行相关性系数分析；这可以让你剔除那些接近0的特征（显然没有影响）。

之后，对所有剩余特征进行完整的相关矩阵分析；那些sigma接近+1.00或-1.00的特征表明你可以删除其中一个：它们之间的预测效果很好，因此不需要同时保留两个。

SKLearn很好，SciKit也不错。如果你知道如何编写底层的矩阵方程，Octave和MatLib也非常优秀。

我还可以推荐开源软件包TrustedAnalytics（我是该项目的软件负责人之一）。Python API对数据科学非常有用，但它确实是一个大数据包：它建立在你可能没有的其他工具之上。

学技术