我刚开始学习tensorflow的分布和双射器。我知道在设计tensorflow分布包时,他们将张量的形状分为三组:[样本形状,批次形状,事件形状]。但我发现很难理解为什么在定义新的双射器类时,他们总是将父类的“事件维度”设为1。例如,以下代码是一个Real-NVP双射器类,在其init函数中:
super(NVPCoupling, self).__init__(
event_ndims=1, validate_args=validate_args, name=name)
但据我理解,这个Real-NVP类是作用于事件维度为D的张量,对吗?
def net(x, out_size):
return layers.stack(x, layers.fully_connected, [512, 512, out_size])
# Real-NVP的仿射耦合层
class NVPCoupling(tfb.Bijector):
"""NVP仿射耦合层,用于2D单位。
"""
def __init__(self, D, d, layer_id=0, validate_args=False, name="NVPCoupling"):
"""
参数:
d: 前d个单位是直通单位。
"""
# 前d个数字决定剩余D-d个数字的缩放/移位因子。
super(NVPCoupling, self).__init__(
event_ndims=1, validate_args=validate_args, name=name)
self.D, self.d = D, d
self.id = layer_id
# 在这里创建变量
tmp = tf.placeholder(dtype=DTYPE, shape=[1, self.d])
self.s(tmp)
self.t(tmp)
def s(self, xd):
with tf.variable_scope('s%d' % self.id, reuse=tf.AUTO_REUSE):
return net(xd, self.D - self.d)
def t(self, xd):
with tf.variable_scope('t%d' % self.id, reuse=tf.AUTO_REUSE):
return net(xd, self.D - self.d)
def _forward(self, x):
xd, xD = x[:, :self.d], x[:, self.d:]
yD = xD * tf.exp(self.s(xd)) + self.t(xd) # [batch, D-d]
return tf.concat([xd, yD], axis=1)
def _inverse(self, y):
yd, yD = y[:, :self.d], y[:, self.d:]
xD = (yD - self.t(yd)) * tf.exp(-self.s(yd))
return tf.concat([yd, xD], axis=1)
def _forward_log_det_jacobian(self, x):
event_dims = self._event_dims_tensor(x)
xd = x[:, :self.d]
return tf.reduce_sum(self.s(xd), axis=event_dims)
此外,当我们使用样本张量来训练它时,张量的形状为[batch_size, D]。但tmp占位符的形状是[1, self.d],而不是[Batch_size, self.d]。这是为什么呢?希望有专家能澄清这一点。谢谢。
回答:
event_ndims
是事件维度的数量,而不是输入的大小。因此,event_ndims=1
作用于向量,event_ndims=2
作用于矩阵,依此类推。请参阅Bijector
类的__init__
文档字符串。