Viola Jones Experiments (训练集)

据说“4916个正面训练样本是手动挑选、对齐、标准化，并缩放到基础分辨率24×24的。10,000个负面样本是从9500张不含人脸的图像中随机选择子窗口得到的。” 这是保罗·维奥拉和迈克尔·琼斯在论文《Robust Real-Time Face Detection》中的描述。

我的问题是他们所说的手动挑选、对齐、标准化，并缩放到基础分辨率24×24是什么意思？

“手动挑选对齐”是否意味着他们有4916张不同面孔的正面图像？“标准化”是否意味着这4916张图像具有相同的特征[文件大小、文件类型、图片颜色（灰度/彩色）]？“缩放到基础分辨率24×24”是否意味着这4916张图像都被调整到24×24像素？

感谢您的宝贵时间！

回答：

“手动挑选对齐”是否意味着他们有4916张不同面孔的正面图像？

不一定是不同的面孔 – 但确实，他们提供了4916张不同的人脸照片。这些面孔是由“人类专家”手动找到的。

“标准化”是否意味着这4916张图像具有相同的特征[文件大小、文件类型、图片颜色（灰度/彩色）]？

他们只使用了灰度像素，标准化意味着他们确保没有“黑”或“白”的图片。如果一张图片非常暗，它会被自动调亮；如果不够暗，它会被调暗。这可以通过一个自动组件轻松完成。

“缩放到基础分辨率24×24”是否意味着这4916张图像都被调整到24×24像素？

是的，他们确保每张“人脸”图像都精确到24×24像素，通过对图片进行一些处理来实现这一点。

学技术