我在学校的机器学习课程中理解一页讲义时遇到了困难
为什么Y的期望值等于f(X)?这是什么意思
我的理解是X, Y是向量,f(X)输出一个Y的向量,其中Y向量中的每个单独值(y_i)对应于f(x_i),其中x_i是X中索引i的值;但现在它在取Y的期望值,这将是一个单一的值,那么这怎么会等于f(X)呢?
X, Y(大写)是向量
x_i,y_i(带下标的小写)是X,Y中索引i处的标量
回答:
这里有很多混淆的地方。首先让我们从定义开始
定义
-
期望运算符E[.]:以随机变量作为输入,输出一个标量/向量。假设Y是一个正态分布的随机变量,均值为Mu,方差为Sigma^{2}(通常表示为:Y ~ N( Mu , Sigma^{2} )),那么E[Y] = Mu
-
函数f(.):以标量/向量(不是随机变量)作为输入,输出一个标量/向量。在这个上下文中,它是一个仿射函数,即f(X) = a*X + b,其中a和b是固定的常数。
发生了什么
现在你可以从两个角度来看待线性回归。
统计学视角
一个角度假设你的响应变量-Y-是一个正态分布的随机变量,因为:
Y ~ a*X + b + epsilon
其中
epsilon ~ N( 0 , sigma^sq )
而X是其他分布。我们并不关心X的分布情况,并将其视为已知。在这种情况下,条件分布是
Y|X ~ N( a*X + b , sigma^sq )
请注意,这里a,b 以及 X都是数值,与它们没有随机性相关联。
数学视角
另一个视角是数学视角,我假设有一个函数f(.)支配着现实生活中的过程,如果在现实生活中我观察到X,那么f(X)应该是输出。当然,这并不是事实,偏差被认为是由于各种原因,如测量误差等。主张这个函数是线性的:f(X) = a*X + b
综合
现在我们如何结合这些?如下所示:E[Y|X] = a*X + b = f(X)
关于你的问题,我首先想挑战一下,应该是Y|X而不是Y本身。
其次,这里有很多关于每个术语在现实生活中代表什么的可能的本体论讨论。X,Y(大写)可能是向量。X,Y(大写)也可能是随机变量。这些随机变量的一个样本可能存储在向量中,并且都用大写字母表示(最好的方法是为每个使用不同的字体)。在这种情况下,你的样本将成为你的数据。关于模型的一般观点及其与现实生活的相关性应该在随机变量层面上进行讨论。推断参数的方法,线性回归算法的工作原理应该在矩阵和向量层面上进行讨论。可能还有其他讨论,你应该同时关注这两者。
我希望这个过于杂乱的回答能帮助你。一般来说,如果你想学习这些东西,请确保你知道你在处理什么样的数学对象和运算符,它们接受什么样的输入,以及它们与现实生活的相关性是什么。