我目前正在进行视频字幕生成(帧序列到自然语言)的工作。最近我开始使用TensorFlow中的tf.data.Dataset类来替代feed_dict参数。
我的目标是将这些帧输入到预训练的CNN(InceptionV3)中,提取特征向量,然后将其输入到我的RNN seq2seq网络中。
在使用Inception模型映射我的数据集后,我遇到了TensorFlow类型的问题:之后数据集完全无法使用,无论是通过dataset.batch()还是dataset.take()。我甚至无法创建一个一次性迭代器!
以下是我构建数据集的步骤:
步骤1:首先,我为每个视频提取相同数量的帧。我将所有这些帧存储在一个numpy数组中。它的形状是(视频数量,帧数量,宽度,高度,通道数)。请注意,在这个数据集中,每个视频的大小相同,并且有3个颜色通道。
步骤2:然后我使用这个大numpy数组创建一个tf.data.Dataset对象。请注意,通过Python打印这个数据集会显示:视频数量=2;宽度=240;高度=320;通道数=3。我还不明白“DataAdapter”是什么意思。此时,我可以创建一个一次性迭代器,但使用dataset.batch(1)返回:我不明白为什么是“?”而不是“1”形状..
步骤3:我使用map函数对数据集中的所有视频的所有帧进行调整大小至299*299*3(使用InceptionV3所需)。此时,我可以使用数据集中的数据并创建一个一次性迭代器。
步骤4:我再次使用map函数,使用InceptionV3预训练模型提取每个特征。此时问题发生了:打印数据集显示:看起来不错。然而,现在无法为这个数据集创建一次性迭代器
步骤1 :
X_train_slice, Y_train = build_dataset(number_of_samples)
步骤2:
X_train = tf.data.Dataset.from_tensor_slices(X_train_slice)
步骤3:
def format_video(video): frames = tf.image.resize_images(video, (299,299)) frames = tf.keras.applications.inception_v3.preprocess_input(frames) return framesX_train = X_train.map(lambda video: format_video(video))
步骤4:
Inception模型:
image_model = tf.keras.applications.InceptionV3(include_top=False, weights='imagenet')new_input = image_model.inputhidden_layer = image_model.layers[-1].outputimage_features_extract_model = tf.keras.Model(new_input, hidden_layer)
关于tf.reduce_mean,请参见如何使用Keras获取Inception V3模型的pool3特征 (Stack Overflow)
def extract_video_features(video): batch_features = image_features_extract_model(video) batch_features = tf.reduce_mean(batch_features, axis=(1, 2)) return batch_featuresX_train = X_train.map(lambda video: extract_video_features(video))
创建迭代器:
iterator = X_train.make_one_shot_iterator()
以下是输出:
ValueError: 无法为数据集创建一次性迭代器。`Dataset.make_one_shot_iterator()`不支持捕获有状态对象的数据集,如`Variable`或`LookupTable`。在这些情况下,请使用`Dataset.make_initializable_iterator()`。(原始错误:无法通过值捕获有状态节点(名称:conv2d/kernel,类型:VarHandleOp)。)
我不太明白:它要求我使用可初始化迭代器,但这种迭代器是为占位符准备的。这里,我有的是原始数据!
回答:
你使用管道的做法是错误的。tf.data
的理念是为模型提供输入管道,而不是包含模型本身。你试图将模型作为管道的一个步骤(你的步骤4)来适应,但正如错误所示,这行不通。
你应该做的是按你现在的方式构建模型,然后在输入数据上调用model.predict
,以获得你想要的特征(作为计算值)。如果你想添加进一步的计算,可以在模型中添加,因为predict
调用将运行模型并返回输出层的数值。
附注: image_features_extract_model = tf.keras.Model(new_input, hidden_layer)
完全不相关,考虑到你对输入和输出张量的选择:输入是image_model
的输入,输出是image_model
的输出,因此image_features_extract_model
与image_model
完全相同。
最终代码应该是这样的:
X_train_slice, Y_train = build_dataset(number_of_samples)X_train = tf.data.Dataset.from_tensor_slices(X_train_slice)def format_video(video): frames = tf.image.resize_images(video, (299,299)) frames = tf.keras.applications.inception_v3.preprocess_input(frames) return framesX_train = X_train.map(lambda video: format_video(video))image_model = tf.keras.applications.InceptionV3(include_top=False, weights='imagenet')bottlenecks = image_model.predict(X_train)# 对你的瓶颈做一些处理