我正在深入研究机器学习的所有数学基础。对于它的数学原理,我完全理解,但有一件事我始终无法理解。
我的问题很简单:
为什么在训练图像到字符(例如,使用notMNIST数据集作为训练源)的分类模型时,线性模型会有效?据我所知,使用线性模型,我们是在说输出是输入的线性函数加上一个偏置参数。但我已经知道线性模型在其他类型的应用中表现不佳。
那么,为什么它在这里有效,而在其他地方却不行呢?
回答:
模型的复杂性随所解决的问题而变化。MNIST是一个非常简单的案例,由于输入(正面灰度数字)和输出(十个数字之一)的范围狭窄及其固有的差异性,恰好适合线性组合。例如,4
和9
具有不同的连通性,这是线性组合可以辨别的特性。只要节点足够多,MNIST模型就能轻松地训练到90%以上的准确率。
相比之下,考虑ILSVRC图像集,其判别依赖于颜色、姿势、主体部分的相对比例(例如,猎狼犬与贵宾犬)以及其他大小特性。这些需要缩放、泛化、适应干扰对象(例如,前景中的灌木丛)以及其他属性。一个足够大的线性网络可能会合理地区分十个类别,但无法进行1000个类别的细致区分。
我刚发现这篇博客,它有助于突出MNIST的一些复杂性……以及它的简化。