为什么在线性回归中使用多个特征?

线性回归定义Y是X的函数。使用这个函数可以在X的值发生之前预测Y(忽略异常值)。

单变量线性回归仅依赖于一个变量。但更强大的形式是多变量线性回归,其中不仅仅使用一个参数X,而是使用多个参数。这无法在X,Y平面上可视化,引入三个参数或许可以可视化,但4,5,6个参数(维度)则无法可视化。

增加参数的想法是为了获得更好的预测。这有什么依据吗?为什么使用多个特征能提高预测的质量?我直观地理解,了解一个问题越多,就能做出更准确的预测。但为什么增加更多的特征,或者换句话说,增加维度会提高函数的准确性?这是否有正式的定义?

还是说这只是试错法——一个特征可能就足够了,但直到测试多个特征后才知道确切情况。


回答:

正式证明非常简单。你的映射f的本质无法表达为你的特征的函数。你只能得到某种近似,增加更多的变量总是扩展可能的近似器的空间(更严格地说——从不减少)。虽然在新的空间中找到一个好的近似器可能实际上更困难(因此所有已知的算法都会失败),但总会有更大的机会它存在。一般来说——如果你能创建一组完美的特征,例如……输出值本身——那么添加任何东西实际上会降低模型的质量。但在现实生活中——我们作为人类——无法找到如此好的预测器,因此我们盲目地采样可以从现实中获得、测量的东西,作为一种简单的随机猜测——每一条额外的信息都可能是useful的。

如果你更喜欢更数学化的解决方案,请考虑f是未知特征集的函数

f(x1, ..., xm) e R

现在你可以在某些无限的原始信号空间中测量特征r1, r2, ...,对于每个原始信号子集,都有一个映射到这些f的真实特征上,但正确程度各不相同,所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)等。你试图从某些有限的原始信号子集构建一个函数到R,以近似f,所以你包含的r越多,你就有更好的机会捕捉到这样的元素,使得近似f成为可能。不幸的是——你可以添加许多冗余信号,或者那些与真实特征完全不相关的。这可能被视为偏差-方差的一个大问题。你添加的特征越多,假设你在整个可能信号的范围内这样做(因此你实际上可以找到一些与f的本质真正相关的),你引入的方差就越多。另一方面——少量特征会引入高偏差误差(由于对所需信号及其与真实特征的相关性的强烈假设)。

特别是,线性回归不适合处理高度相关的信号,因此对于这种特定的统计模型,添加新信号可能很快会破坏你的模型。LR有一个强烈的基本假设,即f是所有预测变量的线性模型,直到正态分布的误差,每个维度之间的方差相等

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注