tensorflow多GPU MNIST示例,损失值不下降

我正在尝试编写自己的MNIST示例,该示例可以使用一台机器上的两个GPU。

这是一个简单的多层感知器。

这是我的代码。你可以直接运行它。

from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/data/", one_hot=True)import tensorflow as tflearning_rate = 0.001training_steps = 100000batch_size = 100display_step = 100n_hidden_1 = 256n_hidden_2 = 256n_input = 784n_classes = 10def _variable_on_cpu(name, shape, initializer):    with tf.device('/cpu:0'):        dtype = tf.float32        var = tf.get_variable(name, shape, initializer=initializer, dtype=dtype)    return vardef build_model():    def multilayer_perceptron(x, weights, biases):        layer_1 = tf.add(tf.matmul(x, weights['h1']), biases['b1'])        layer_1 = tf.nn.relu(layer_1)        layer_2 = tf.add(tf.matmul(layer_1, weights['h2']), biases['b2'])        layer_2 = tf.nn.relu(layer_2)        out_layer = tf.matmul(layer_2, weights['out']) + biases['out']        return out_layer    with tf.variable_scope('aaa'):        weights = {        'h1': _variable_on_cpu('h1',[n_input, n_hidden_1],tf.constant_initializer(0.0)),        'h2': _variable_on_cpu('h2',[n_hidden_1, n_hidden_2],tf.constant_initializer(0.0)),        'out': _variable_on_cpu('out_w',[n_hidden_2, n_classes],tf.constant_initializer(0.0))          }        biases = {        'b1': _variable_on_cpu('b1',[n_hidden_1],tf.constant_initializer(0.0)),        'b2': _variable_on_cpu('b2',[n_hidden_2],tf.constant_initializer(0.0)),        'out': _variable_on_cpu('out_b',[n_classes],tf.constant_initializer(0.0))          }        pred = multilayer_perceptron(x, weights, biases)        cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))    return costdef average_gradients(tower_grads):  average_grads = []  for grad_and_vars in zip(*tower_grads):    grads = []    for g,_ in grad_and_vars:      expanded_g = tf.expand_dims(g, 0)      grads.append(expanded_g)    grad = tf.concat(axis=0, values=grads)    grad = tf.reduce_mean(grad, 0)    v = grad_and_vars[0][1]    grad_and_var = (grad, v)    average_grads.append(grad_and_var)  return average_gradswith tf.Graph().as_default(), tf.device('/cpu:0'):    x = tf.placeholder("float", [None, n_input])    y = tf.placeholder("float", [None, n_classes])    tower_grads = []    optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)    with tf.variable_scope(tf.get_variable_scope()):      for i in xrange(2):        with tf.device('/gpu:%d' % i):                cost = build_model()                tf.get_variable_scope().reuse_variables()                grads = optimizer.compute_gradients(cost)                tower_grads.append(grads)    grads = average_gradients(tower_grads)    apply_gradient_op = optimizer.apply_gradients(grads)    train_op = apply_gradient_op    init = tf.global_variables_initializer()    sess = tf.Session()    sess.run(init)    for step in range(training_steps):            image_batch, label_batch = mnist.train.next_batch(batch_size)            _, cost_print = sess.run([train_op, cost],                                     {x:image_batch,                                      y:label_batch})            if step % display_step == 0:                print("step=%04d" % (step+1)+  " cost=" + str(cost_print))    print("Optimization Finished!")    sess.close()

打印信息如下所示:

step=0001 cost=2.30258step=0101 cost=2.30246step=0201 cost=2.30128step=0301 cost=2.30376step=0401 cost=2.29817step=0501 cost=2.2992step=0601 cost=2.3104step=0701 cost=2.29995step=0801 cost=2.29802step=0901 cost=2.30524step=1001 cost=2.29673step=1101 cost=2.30016step=1201 cost=2.31057step=1301 cost=2.29815step=1401 cost=2.29669step=1501 cost=2.30345step=1601 cost=2.29811step=1701 cost=2.30867step=1801 cost=2.30757step=1901 cost=2.29716step=2001 cost=2.30394

损失值没有下降。我不知道如何修复这个问题。

顺便说一下,GPU使用率大约是26%和26%。如何提高GPU使用率?


回答:

问题在于,

我应该对weights使用tf.constant_initializer(0.1)而不是tf.constant_initializer(0)

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注