为什么InfMnist (MNIST) 的8M示例被计算为8 109 999个示例？

上面写着：

生成包含MNIST8M训练集的文件：$ infimnist lab 10000 8109999 > mnist8m-labels-idx1-ubyte$ infimnist pat 10000 8109999 > mnist8m-patterns-idx3-ubyte

然而，我不明白为什么是从10 000到8 109 999。即使我计算8 109 999 – 10 000，这对我来说仍然没有意义。

对我来说，8M应该是8 000 000 + 9 999，因为我会从10 000开始，到8 009 999结束，这样就是800万张图片。

有谁明白为什么它被计算为8 109 999？

回答：

据一位kaggle用户所说，原因如下：

8M数据集是原始图像 + 134个变形/原始图像。因此有

135*60,000 = 8,100,000

训练图像。

加上10,000张测试图像，总共得到8,110,000张图像。

测试图像的索引从0到10,000-1=9,999，训练图像的索引从10,000到8,110,000-1 = 8,109,999。

希望这对你有帮助。

原始数据集也在这里：

你可以看到“数据量：8,100,000”

学技术