选择用于图像识别的神经网络变量

我有一个包含6种不同多米诺骨牌以及一个“控制”组(婴儿)的89张图像的训练集,这些图像被分为7组。因此,输出y是7。每张图像大小为100×100,黑白图像,因此X的总像素数为100,000。

我使用的是Andrew Ng的Coursera课程中提供的Octave代码,创建了一个带有单隐藏层的 neural network,并对其进行了些许修改。

我首先尝试了3个不同的组(两个多米诺骨牌,一个婴儿),结果几乎达到了100%的准确率。现在我增加到7个不同的图像组。准确率大幅下降,几乎只能正确识别出与多米诺骨牌差异很大的婴儿照片。

我尝试了10个不同的lambda值,10个不同的神经元数量(在5到20之间),以及尝试了不同的迭代次数,并将这些结果与成本和准确率进行了对比,以寻找最佳匹配。

我也尝试了特征归一化(在下面的代码中已注释掉),但这并没有帮助。

这是我使用的代码:

% Initializationclear ; close all; clc; more off;pkg load image;fprintf('Running Domino Identifier ... \n');%iteration_vector = [100, 300, 1000, 3000, 10000, 30000];%accuracies = [];%costs = [];%for iterations_i = 1:length(iteration_vector)  # INPUTS  input_layer_size  = 10000;  % 100x100 Input Images of Digits  hidden_layer_size = 50;   % Hidden units  num_labels = 7;          % Number of different outputs  iterations = 100000; % Number of iterations during training  lambda = 0.13;  %hidden_layer_size = hidden_layers(hidden_layers_i);  %lambda = lambdas(lambda_i)  %iterations = %iteration_vector(iterations_i)  [X,y] = loadTrainingData(num_labels);  %[X_norm, mu, sigma] = featureNormalize(X_unnormed);  %X = X_norm;  initial_Theta1 = randInitializeWeights(input_layer_size, hidden_layer_size);  initial_Theta2 = randInitializeWeights(hidden_layer_size, num_labels);  initial_nn_params = [initial_Theta1(:) ; initial_Theta2(:)];  [J grad] = nnCostFunction(initial_nn_params, input_layer_size, hidden_layer_size, num_labels, X, y, lambda);  fprintf('\nTraining Neural Network... \n')  %  After you have completed the assignment, change the MaxIter to a larger  %  value to see how more training helps.  options = optimset('MaxIter', iterations);  % Create "short hand" for the cost function to be minimized  costFunction = @(p) nnCostFunction(p, input_layer_size, hidden_layer_size, num_labels, X, y, lambda);  % Now, costFunction is a function that takes in only one argument (the  % neural network parameters)  [nn_params, cost] = fmincg(costFunction, initial_nn_params, options);  % Obtain Theta1 and Theta2 back from nn_params  Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), ...                   hidden_layer_size, (input_layer_size + 1));  Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), ...                   num_labels, (hidden_layer_size + 1));  displayData(Theta1(:, 2:end));  [predictionData, images] = loadTrainingData(num_labels);  [h2_training, pred_training] = predict(Theta1, Theta2, predictionData);  fprintf('\nTraining Accuracy: %f\n', mean(double(pred_training' == y)) * 100);  %if length(accuracies) > 0  %  accuracies = [accuracies; mean(double(pred_training' == y))];  %else  % accuracies = [mean(double(pred_training' == y))];  %end  %last_cost = cost(length(cost));  %if length(costs) > 0  %  costs = [costs; last_cost];  %else  % costs = [last_cost];  %end%endfor % Testing samplesfprintf('Loading prediction images');[predictionData, images] = loadPredictionData();[h2, pred] = predict(Theta1, Theta2, predictionData)for i = 1:length(pred)    figure;  displayData(predictionData(i, :));  title (strcat(translateIndexToTile(pred(i)), " Certainty:", num2str(max(h2(i, :))*100)));   pause;endfor%y = provideAnswers(im_vector);

现在我的问题是:

  1. 我的数值设置是否存在问题,导致X与其他参数差异过大?

  2. 我应该做些什么来改进这个神经网络?

  3. 如果我进行特征归一化,是否需要在某个地方将数值重新乘回到0-255的范围内?


回答:

我应该做些什么来改进这个神经网络?

使用带有多层(例如5层)的卷积神经网络(CNN)。对于视觉问题,CNN在性能上远远超过多层感知器(MLP)。你目前使用的是一个只有单隐藏层的MLP。对于一个包含7个类别的图像问题,这个网络可能表现不佳。一个需要考虑的问题是你拥有的训练数据量。通常,我们希望每个类别至少有数百个样本。

如果我进行特征归一化,是否需要在某个地方将数值重新乘回到0-255的范围内?

通常,对于分类问题是不需要的。归一化可以视为一个预处理步骤。然而,如果你处理的是图像重建这样的问题,那么在最后你需要将数据转换回原始域。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注