为什么在线性回归中使用多个特征？

线性回归定义Y是X的函数。使用这个函数可以在X的值发生之前预测Y（忽略异常值）。

单变量线性回归仅依赖于一个变量。但更强大的形式是多变量线性回归，其中不仅仅使用一个参数X，而是使用多个参数。这无法在X,Y平面上可视化，引入三个参数或许可以可视化，但4,5,6个参数（维度）则无法可视化。

增加参数的想法是为了获得更好的预测。这有什么依据吗？为什么使用多个特征能提高预测的质量？我直观地理解，了解一个问题越多，就能做出更准确的预测。但为什么增加更多的特征，或者换句话说，增加维度会提高函数的准确性？这是否有正式的定义？

还是说这只是试错法——一个特征可能就足够了，但直到测试多个特征后才知道确切情况。

回答：

正式证明非常简单。你的映射f的本质无法表达为你的特征的函数。你只能得到某种近似，增加更多的变量总是扩展可能的近似器的空间（更严格地说——从不减少）。虽然在新的空间中找到一个好的近似器可能实际上更困难（因此所有已知的算法都会失败），但总会有更大的机会它存在。一般来说——如果你能创建一组完美的特征，例如……输出值本身——那么添加任何东西实际上会降低模型的质量。但在现实生活中——我们作为人类——无法找到如此好的预测器，因此我们盲目地采样可以从现实中获得、测量的东西，作为一种简单的随机猜测——每一条额外的信息都可能是useful的。

如果你更喜欢更数学化的解决方案，请考虑f是未知特征集的函数

f(x1, ..., xm) e R

现在你可以在某些无限的原始信号空间中测量特征r1, r2, ...，对于每个原始信号子集，都有一个映射到这些f的真实特征上，但正确程度各不相同，所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)等。你试图从某些有限的原始信号子集构建一个函数到R，以近似f，所以你包含的r越多，你就有更好的机会捕捉到这样的元素，使得近似f成为可能。不幸的是——你可以添加许多冗余信号，或者那些与真实特征完全不相关的。这可能被视为偏差-方差的一个大问题。你添加的特征越多，假设你在整个可能信号的范围内这样做（因此你实际上可以找到一些与f的本质真正相关的），你引入的方差就越多。另一方面——少量特征会引入高偏差误差（由于对所需信号及其与真实特征的相关性的强烈假设）。

特别是，线性回归不适合处理高度相关的信号，因此对于这种特定的统计模型，添加新信号可能很快会破坏你的模型。LR有一个强烈的基本假设，即f是所有预测变量的线性模型，直到正态分布的误差，每个维度之间的方差相等。

学技术

为什么在线性回归中使用多个特征？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复