这实际上可能是一个简单的问题,但我有点困惑。这是平方误差成本函数
回答:
基本上,你试图最小化 J
,它的形式是
J(theta) = f(theta) + lambda*||theta||^2
现在,第一个项衡量的是经验误差的大小(即对数据的拟合程度),第二个项衡量的是参数向量的大小。你在最小化这两个值的总和,因此为了达到较小的值,你或多或少需要同时最小化它们。当然,仍然可能存在这样的情况,即对于某个非常大的 theta,f(theta) 非常小,最小值就在那里。但这就是 lambda 的意义所在——通过设置较高的 lambda,你使得 theta 的增长变得越来越昂贵,因此优化过程必须减少所使用的 theta 的大小,以达到函数的最小值。