我在尝试理解梯度下降法,但感到很困惑。如果你有一个抛物线,它代表随着权重变化的损失。为什么不直接找到抛物线的顶点,而要在当前的x点上计算导数呢?
回答:
你可以这样做。如果你的损失函数确实是一个抛物线(或其他方便的凸函数),你是可以这样做的。但更可能的是,你的损失函数是非凸且非常复杂的,你事先并不知道它是什么。所以我们使用梯度下降法的方式——我们不断地采样。当你看到方便的抛物线时,那只是一个简化的示例。
我在尝试理解梯度下降法,但感到很困惑。如果你有一个抛物线,它代表随着权重变化的损失。为什么不直接找到抛物线的顶点,而要在当前的x点上计算导数呢?
回答:
你可以这样做。如果你的损失函数确实是一个抛物线(或其他方便的凸函数),你是可以这样做的。但更可能的是,你的损失函数是非凸且非常复杂的,你事先并不知道它是什么。所以我们使用梯度下降法的方式——我们不断地采样。当你看到方便的抛物线时,那只是一个简化的示例。