为什么在线性回归中使用多个特征?

线性回归定义Y是X的函数。使用这个函数可以在X的值发生之前预测Y(忽略异常值)。

单变量线性回归仅依赖于一个变量。但更强大的形式是多变量线性回归,其中不仅仅使用一个参数X,而是使用多个参数。这无法在X,Y平面上可视化,引入三个参数或许可以可视化,但4,5,6个参数(维度)则无法可视化。

增加参数的想法是为了获得更好的预测。这有什么依据吗?为什么使用多个特征能提高预测的质量?我直观地理解,了解一个问题越多,就能做出更准确的预测。但为什么增加更多的特征,或者换句话说,增加维度会提高函数的准确性?这是否有正式的定义?

还是说这只是试错法——一个特征可能就足够了,但直到测试多个特征后才知道确切情况。


回答:

正式证明非常简单。你的映射f的本质无法表达为你的特征的函数。你只能得到某种近似,增加更多的变量总是扩展可能的近似器的空间(更严格地说——从不减少)。虽然在新的空间中找到一个好的近似器可能实际上更困难(因此所有已知的算法都会失败),但总会有更大的机会它存在。一般来说——如果你能创建一组完美的特征,例如……输出值本身——那么添加任何东西实际上会降低模型的质量。但在现实生活中——我们作为人类——无法找到如此好的预测器,因此我们盲目地采样可以从现实中获得、测量的东西,作为一种简单的随机猜测——每一条额外的信息都可能是useful的。

如果你更喜欢更数学化的解决方案,请考虑f是未知特征集的函数

f(x1, ..., xm) e R

现在你可以在某些无限的原始信号空间中测量特征r1, r2, ...,对于每个原始信号子集,都有一个映射到这些f的真实特征上,但正确程度各不相同,所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)等。你试图从某些有限的原始信号子集构建一个函数到R,以近似f,所以你包含的r越多,你就有更好的机会捕捉到这样的元素,使得近似f成为可能。不幸的是——你可以添加许多冗余信号,或者那些与真实特征完全不相关的。这可能被视为偏差-方差的一个大问题。你添加的特征越多,假设你在整个可能信号的范围内这样做(因此你实际上可以找到一些与f的本质真正相关的),你引入的方差就越多。另一方面——少量特征会引入高偏差误差(由于对所需信号及其与真实特征的相关性的强烈假设)。

特别是,线性回归不适合处理高度相关的信号,因此对于这种特定的统计模型,添加新信号可能很快会破坏你的模型。LR有一个强烈的基本假设,即f是所有预测变量的线性模型,直到正态分布的误差,每个维度之间的方差相等

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注