Home IT技术为什么线性模型在图像分类中有效？

为什么线性模型在图像分类中有效？

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我正在深入研究机器学习的所有数学基础。对于它的数学原理，我完全理解，但有一件事我始终无法理解。

我的问题很简单：

为什么在训练图像到字符（例如，使用notMNIST数据集作为训练源）的分类模型时，线性模型会有效？据我所知，使用线性模型，我们是在说输出是输入的线性函数加上一个偏置参数。但我已经知道线性模型在其他类型的应用中表现不佳。

那么，为什么它在这里有效，而在其他地方却不行呢？

回答：

模型的复杂性随所解决的问题而变化。MNIST是一个非常简单的案例，由于输入（正面灰度数字）和输出（十个数字之一）的范围狭窄及其固有的差异性，恰好适合线性组合。例如，4和9具有不同的连通性，这是线性组合可以辨别的特性。只要节点足够多，MNIST模型就能轻松地训练到90%以上的准确率。

相比之下，考虑ILSVRC图像集，其判别依赖于颜色、姿势、主体部分的相对比例（例如，猎狼犬与贵宾犬）以及其他大小特性。这些需要缩放、泛化、适应干扰对象（例如，前景中的灌木丛）以及其他属性。一个足够大的线性网络可能会合理地区分十个类别，但无法进行1000个类别的细致区分。

我刚发现这篇博客，它有助于突出MNIST的一些复杂性……以及它的简化。

classification linear-algebra machine-learning

发表回复取消回复