学习感知器可以通过使用更新规则 w_i = w_i + n(y – ŷ)x 轻松实现。
我目前阅读的所有资源都表示,学习率 n 可以无损一般性地设为 1。
我的问题如下:如果数据是线性可分的,是否有证据表明收敛速度总是相同的?这不应该也取决于初始的 w 向量吗?
回答:
引用 Wikipedia:
感知器的决策边界对于权重向量的缩放是不变的;也就是说,使用初始权重向量 \mathbf{w} 和学习率 \alpha \, 训练的感知器,与使用初始权重向量 \mathbf{w}/\alpha \, 和学习率 1 训练的感知器行为相同。因此,随着迭代次数的增加,初始权重变得无关紧要,感知器的学习率并不重要,通常只是设为 1。