我在线上学习了各种大规模开放式在线课程(MOOCs),其中一个课程提到在scikit的线性回归中需要在训练数据中包含一列全为1的列。
假设我有以下训练数据集:
investment loan 300000 12000 431000 3000 900000 4000 320000 2000
在使用Python的scikit模型进行线性回归拟合之前,我是否需要添加一列全为1的列,如下所示?
ones investment loan 1 300000 12000 1 431000 3000 1 900000 4000 1 320000 2000
任何帮助都将不胜感激。
回答:
从文档中可以看到:
fit_intercept : boolean, optional, default True
是否为此模型计算截距。如果设置为False,则在计算中不会使用截距(例如,数据预期已被中心化)。
截距是与“一列全为1的列”相关的系数。因此,如果这个参数设置为True
(这是默认值),你就不需要添加一列全为1的列了。