我对机器学习和统计学是新手(当然,我在大学里学过数学,但那是大约10到12年前的事了)。你能解释一下这本书第4页(书的第5页)中的这句话的意思吗?书在这里( https://www.researchgate.net/publication/227612766_An_Empirical_Comparison_of_Machine_Learning_Models_for_Time_Series_Forecasting ):
多层感知器(通常简称为神经网络)可能是当今用于分类和回归的最流行的网络架构(Bishop [5])。MLP的给出如下:N H y ˆ = v0 + j=1 X vj g(wj T x′ ) (1) 其中x′是输入向量x,增广到1,即x′ = (1, xT )T,wj是第j个隐藏节点的权重向量,v0,v1,…,vN H是输出节点的权重,y ˆ是网络输出。函数g表示隐藏节点的输出,它是通过压缩函数给出的,例如(我们使用的是)逻辑函数:g(u) = 1/(1 + exp(−u))。在计量经济学文献中,一个相关的模型是
例如,我们有一个向量x = [0.2, 0.3, 0.4, 0.5]。如何转换它以得到增广到1的x′向量x′ = (1, x)?
回答:
这是矩阵与方程组之间的同构的一部分。你目前拥有的相当于一个右侧表达式,例如
w1 = 0.2*x1 + 0.3*x2 + 0.4*x3 + 0.5*x4w2 = ...w3 = ...w4 = ...
当我们想要解这个系统时,我们需要增广矩阵。这需要添加每个w[n]变量的系数。它们显然都是1:
1*w1 = 0.2*x1 + 0.3*x2 + 0.4*x3 + 0.5*x41*w2 = ...1*w3 = ...1*w4 = ...
…这就是我们得到增广矩阵的地方。当我们按位置假设变量时——w按行,x按列——剩下的就是单独的系数,形成一个漂亮的矩阵。