solver parameter ‘test_iter’ 在测试阶段改变标签值

我正在使用Caffe框架来构建和研究卷积神经网络。

我偶然发现了（我认为是）一个错误。（我已经在Github上报告了这个问题。）

问题是这样的：在测试阶段，标签值会根据test_iter参数的值（在solver的.prototxt文件中定义）而发生变化。

我使用10240张图像来训练和测试网络。每张图像有38个标签，每个标签可以有两个值（0或1）。我使用HDF5文件格式将图像数据和标签导入Caffe；每个文件存储1024张图像及其相应的标签。（我已经检查了HDF5文件，一切正常。）

我使用9216张图像（=9个文件）进行训练，1024张图像（=1个文件）进行测试。我的Nvidia 540M显卡只有1GB的内存，这意味着我必须批量处理（通常每批32或64张图像）。

我使用以下网络来复制这个问题：

# 在文件 "BugTest.prototxt" 中name: "BugTest"layer {    name: "data"    type: "HDF5Data"    top: "data"    top: "label"    hdf5_data_param {        source: "./convset_hdf5_train.txt"        batch_size: 32    }    include {        phase: TRAIN    }}layer {    name: "data"    type: "HDF5Data"    top: "data"    top: "label"    hdf5_data_param {        source: "./convset_hdf5_test.txt"        batch_size: 32    }    include {        phase: TEST    }}layer {    name: "silence"    type: "Silence"    bottom: "data"}

这个网络简单地输出所有标签值。我为这个网络使用了以下solver：（大部分是从我的真实网络中复制过来的。）

# 在文件 "BugTest_solver.prototxt" 中net: "BugTest.prototxt"test_iter: 32test_interval: 200base_lr: 0.0001momentum: 0.90weight_decay: 0.0005lr_policy: "inv"gamma: 0.0001power: 0.75display: 100max_iter: 10000snapshot: 5000snapshot_prefix: "./bt"solver_mode: GPU

通过更改batch_size和test_iter参数，获得了以下结果。根据这个教程，测试数据的batch_size和solver中的test_iter应该平衡，以确保在测试期间使用所有测试样本。在我的情况下，我会确保batch_size * test_iter = 1024。

这是我更改值后的结果：
batch_size = 1024, test_iter = 1：一切正常。
batch_size = 512, test_iter = 2：原本为’1’的标签变为’0.50’。
batch_size = 256, test_iter = 4：原本为’1’的标签变为’0.50’或’0.25′
batch_size = 128, test_iter = 8：原本为’1’的标签变为’0.50’或’0.25’或’0.125′
[...]: 这种模式持续下去。

是什么导致测试期间标签值发生变化？我只是错误地理解了batch_size和test_iter的使用，还是我遗漏了其他东西？

回答：

输出日志中显示的结果是迭代的平均值，所以如果有2次迭代，值为1的标签会被平均到0.5。

因此，如果batch size为1024，你会看到1024个输出显示，一切正常。当batch size为512时，你只会看到512个输出，每个输出是两个标签的平均值，即第i个和第i+512个标签，大多数情况下这些标签不会相同。

为了验证这一点，你可以安排你的测试数据，使得值为1的标签放在偶数位置，这样在更改batch_size时，值为1的标签仍然会重合，你应该会得到精确的1作为输出。

学技术

solver parameter ‘test_iter’ 在测试阶段改变标签值

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复