我在我的简单神经网络中尝试使用不同的激活函数。
无论使用tf.nn.relu
还是tf.nn.sigmoid
,网络都能正常工作。
但是当我使用tf.nn.crelu
时,会出现维度错误。
它返回类似[max, min]
的结果,并且宽度维度变为原来的两倍。我应该怎么做?将后续的权重和偏置调整到crelu
的输出上吗?
回答:
你说的没错,如果你手动构建网络,你需要调整后续层的维度以匹配tf.nn.crelu
的输出。从这个意义上说,tf.nn.crelu
并不能与tf.nn.relu
、tf.nn.elu
等互换使用。
如果你使用高层API,例如tensorflow slim,情况会简单很多。在这种情况下,层函数会自动处理维度的匹配,所以你可以在代码中轻松地用tf.nn.crelu
替换tf.nn.relu
。然而,请注意网络的大小会悄无声息地变为原来的两倍。
这里有一个例子:
with slim.arg_scope([slim.conv2d, slim.fully_connected],
activation_fn=tf.nn.crelu,
normalizer_fn=slim.batch_norm,
normalizer_params={'is_training': is_training, 'decay': 0.95}):
conv1 = slim.conv2d(x_image, 16, [5, 5], scope='conv1')
pool1 = slim.max_pool2d(conv1, [2, 2], scope='pool1')
conv2 = slim.conv2d(pool1, 32, [5, 5], scope='conv2')
pool2 = slim.max_pool2d(conv2, [2, 2], scope='pool2')
flatten = slim.flatten(pool2)
fc = slim.fully_connected(flatten, 1024, scope='fc1')
drop = slim.dropout(fc, keep_prob=keep_prob)
logits = slim.fully_connected(drop, 10, activation_fn=None, scope='logits')
slim.arg_scope
简单地将所有提供的参数应用于底层层,特别是activation_fn
。另外,请注意在最后一层设置activation_fn=None
以修正输出维度。完整代码可以在这里找到。