我有一个关于机器学习中成本函数及其图形的问题。例如,请看以下图片。是什么函数塑造了它们,是成本函数还是模型?我以为是成本函数,比如第一张图中的均方误差(MSE)。第二张图我不知道是什么函数有这种形状。这对我来说非常 confusing,因为在《Hands on Machine Learning… 第2版》第122页上写着:
幸运的是,线性回归模型的均方误差成本函数恰好是一个凸函数…
和
这意味着没有局部最小值,只有全局最小值。
我不明白的是,为什么均方误差只有在线性回归模型中才是凸函数,如果它是二次函数的话?我认为这个函数总是会有那个“碗”形状,因为它是二次的。或者可能不是,因为如果是这样的话,就很容易为任何模型选择均方误差,并且我总能找到全局最小值,因为机器学习过程的主要目标是最小化成本函数的值。
回答:
为什么均方误差只有在线性回归模型中才是凸函数,如果它是二次函数的话?我认为这个函数总是会有那个“碗”形状,因为它是二次的。
你是对的。
-
均方误差成本函数在 θ 上总是凸的。
-
如果模型 θ = f(x) 是线性的,那么它在 x 上也总是凸的。
-
然而,如果模型是非线性的,那么它在 x 上可能是非凸的。
例如,如果模型是 θ = x2
MSE(θ) = √(θ’ – θ)2 = √(θ’ – x2)2
将有两个全局最小值,一个在 x = √|θ’|,另一个在 x = -√|θ’|。(有点像“w”形状而不是“碗”形状。)
但在 θ 轴上,只有在 θ = θ’ 处有一个全局最小值。