我正在尝试构建一个模型来识别一种人类动作。我的任务是识别一个人在进行“抓取”动作。我已经记录了大约260个正确的动作,并在文件中标注了“catch”和“nothing”标签来训练我的模型。我还有另外一个文件,这个文件也被标注过,用来测试模型的准确性。
我使用的是基于这个网站的CNN模型。我将窗口大小修改为400(相当于4秒的记录)。因此,在训练我的模型后,我得到了以下结果(我的模型已保存并从之前的记录中训练过,这就是为什么在前几个epoch中表现良好的原因):
Epoch: 0 Training Loss: 0.5428493594505138 Training Accuracy: 0.99394274Epoch: 1 Training Loss: 0.5227164919283446 Training Accuracy: 0.99394274Epoch: 2 Training Loss: 0.5037865922760709 Training Accuracy: 0.99449337Epoch: 3 Training Loss: 0.4860136515261339 Training Accuracy: 0.99614537
测试准确率:0.5686275
我的训练代码是:
for epoch in range(training_epochs): cost_history = np.empty(shape=[1], dtype=float) for b in range(total_batchs): offset = (b * batch_size) % (train_y.shape[0] - batch_size) batch_x = train_x[offset:(offset + batch_size), :, :, :] batch_y = train_y[offset:(offset + batch_size), :] _, c = session.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y}) cost_history = np.append(cost_history, c) print("Epoch: ", epoch, " Training Loss: ", np.mean(cost_history), " Training Accuracy: ", session.run(accuracy, feed_dict={X: train_x, Y: train_y})) print("Testing Accuracy:", session.run(accuracy, feed_dict={X: test_input, Y: test_labels}))
之后,我想用以下代码进行预测:
prediction = session.run(y_, feed_dict={X: predict_input})
但结果是这样的:
[[7.6319778e-04 9.9923682e-01] [3.3351363e-04 9.9966645e-01] [2.5510782e-04 9.9974483e-01]... [2.5133172e-04 9.9974865e-01] [2.4705922e-04 9.9975294e-01] [3.0652966e-04 9.9969351e-01] [1.5634180e-04 9.9984360e-01]]
当前问题:
- 我做错了什么吗?
- 预测值不应该是像[0.80 0.20]这样的较高值吗?
- 窗口大小400合适吗?
- 在预测中,每一行对应一个窗口大小的数据,对吗?
回答:
澄清预测值的范围
据我所见,你的值是0.007和0.993或类似的数量级——那么你所说的“更高”具体指的是什么,因为总和总是1。所以如果一个值变高,另一个值应该变小——如果我正确理解了你的问题的话。
澄清预测的对应关系
由于你用“catch”和“nothing”类别标记了数据,所以你的预测对应这些类别。因此,输出(0, 1)表示你的网络预测输入属于第二个类别。
澄清窗口大小
要解决这个问题,我首先需要你解释你所说的“窗口大小”的意思。是指你用作输入的记录秒数吗?如果是的话,我会说,如果你能在这个时间范围内识别出“抓取”动作,那么你的网络也应该能够做到。除此之外,这将是一个进行线性搜索的合适案例。