线性回归定义Y是X的函数。使用这个函数可以在X的值发生之前预测Y(忽略异常值)。
单变量线性回归仅依赖于一个变量。但更强大的形式是多变量线性回归,其中不仅仅使用一个参数X,而是使用多个参数。这无法在X,Y平面上可视化,引入三个参数或许可以可视化,但4,5,6个参数(维度)则无法可视化。
增加参数的想法是为了获得更好的预测。这有什么依据吗?为什么使用多个特征能提高预测的质量?我直观地理解,了解一个问题越多,就能做出更准确的预测。但为什么增加更多的特征,或者换句话说,增加维度会提高函数的准确性?这是否有正式的定义?
还是说这只是试错法——一个特征可能就足够了,但直到测试多个特征后才知道确切情况。
回答:
正式证明非常简单。你的映射f的本质无法表达为你的特征的函数。你只能得到某种近似,增加更多的变量总是扩展可能的近似器的空间(更严格地说——从不减少)。虽然在新的空间中找到一个好的近似器可能实际上更困难(因此所有已知的算法都会失败),但总会有更大的机会它存在。一般来说——如果你能创建一组完美的特征,例如……输出值本身——那么添加任何东西实际上会降低模型的质量。但在现实生活中——我们作为人类——无法找到如此好的预测器,因此我们盲目地采样可以从现实中获得、测量的东西,作为一种简单的随机猜测——每一条额外的信息都可能是useful的。
如果你更喜欢更数学化的解决方案,请考虑f
是未知特征集的函数
f(x1, ..., xm) e R
现在你可以在某些无限的原始信号空间中测量特征r1, r2, ...
,对于每个原始信号子集,都有一个映射到这些f
的真实特征上,但正确程度各不相同,所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)
等。你试图从某些有限的原始信号子集构建一个函数到R
,以近似f
,所以你包含的r
越多,你就有更好的机会捕捉到这样的元素,使得近似f
成为可能。不幸的是——你可以添加许多冗余信号,或者那些与真实特征完全不相关的。这可能被视为偏差-方差的一个大问题。你添加的特征越多,假设你在整个可能信号的范围内这样做(因此你实际上可以找到一些与f
的本质真正相关的),你引入的方差就越多。另一方面——少量特征会引入高偏差误差(由于对所需信号及其与真实特征的相关性的强烈假设)。
特别是,线性回归不适合处理高度相关的信号,因此对于这种特定的统计模型,添加新信号可能很快会破坏你的模型。LR有一个强烈的基本假设,即f
是所有预测变量的线性模型,直到正态分布的误差,每个维度之间的方差相等。