最近我阅读了一些关于神经网络的期刊和PDF文件,并且我特别关注了一篇关于“使用神经网络进行手写识别”的文章。此外,我还在学习反向传播。我的问题是“为什么作者建议读者在将手写输入神经网络之前使用Sobel算子作为预处理技术,而不是直接处理手写输入?”
回答:
手写是由笔画组成的,通常笔画内部填充的是纯色:基于这些假设,笔画可以通过其边缘很好地描述,而其颜色或背景颜色在描述笔画时并不那么有用。边缘基本上是由布尔值来描述的:当一个像素是边缘的一部分时,它是白色的,否则是黑色的。
Sobel滤波器的输出图像的灰度级与边缘的强度成正比,因此可以用来描述边缘,从而描述笔画,或者说,“捕捉”手写字母和数字的本质。
如果直接将手写字母或数字的原始图像输入网络,网络可能会学习到一些不太有用的特征,比如完整的灰度级,这些特征并不能很好地描述字母或数字。
一些作者声称Sobel滤波器以亮度不变的方式给出边缘,尽管我认为这并不完全正确。
出于好奇,作者建议读者使用Sobel滤波器的那篇论文是哪一篇?