为什么我在使用InceptionV3后无法再使用我的数据集？

我目前正在进行视频字幕生成（帧序列到自然语言）的工作。最近我开始使用TensorFlow中的tf.data.Dataset类来替代feed_dict参数。

我的目标是将这些帧输入到预训练的CNN（InceptionV3）中，提取特征向量，然后将其输入到我的RNN seq2seq网络中。

在使用Inception模型映射我的数据集后，我遇到了TensorFlow类型的问题：之后数据集完全无法使用，无论是通过dataset.batch()还是dataset.take()。我甚至无法创建一个一次性迭代器！

以下是我构建数据集的步骤：

步骤1：首先，我为每个视频提取相同数量的帧。我将所有这些帧存储在一个numpy数组中。它的形状是（视频数量，帧数量，宽度，高度，通道数）。请注意，在这个数据集中，每个视频的大小相同，并且有3个颜色通道。

步骤2：然后我使用这个大numpy数组创建一个tf.data.Dataset对象。请注意，通过Python打印这个数据集会显示：视频数量=2；宽度=240；高度=320；通道数=3。我还不明白“DataAdapter”是什么意思。此时，我可以创建一个一次性迭代器，但使用dataset.batch(1)返回：我不明白为什么是“？”而不是“1”形状..

步骤3：我使用map函数对数据集中的所有视频的所有帧进行调整大小至299*299*3（使用InceptionV3所需）。此时，我可以使用数据集中的数据并创建一个一次性迭代器。

步骤4：我再次使用map函数，使用InceptionV3预训练模型提取每个特征。此时问题发生了：打印数据集显示：看起来不错。然而，现在无法为这个数据集创建一次性迭代器

步骤1 :

X_train_slice, Y_train = build_dataset(number_of_samples)

步骤2:

X_train = tf.data.Dataset.from_tensor_slices(X_train_slice)

步骤3:

def format_video(video):    frames = tf.image.resize_images(video, (299,299))    frames = tf.keras.applications.inception_v3.preprocess_input(frames)    return framesX_train = X_train.map(lambda video: format_video(video))

步骤4:

Inception模型:

image_model = tf.keras.applications.InceptionV3(include_top=False,                                                weights='imagenet')new_input = image_model.inputhidden_layer = image_model.layers[-1].outputimage_features_extract_model = tf.keras.Model(new_input, hidden_layer)

关于tf.reduce_mean，请参见如何使用Keras获取Inception V3模型的pool3特征 (Stack Overflow)

def extract_video_features(video):    batch_features = image_features_extract_model(video)    batch_features = tf.reduce_mean(batch_features, axis=(1, 2))    return batch_featuresX_train = X_train.map(lambda video: extract_video_features(video))

创建迭代器:

iterator = X_train.make_one_shot_iterator()

以下是输出:

ValueError: 无法为数据集创建一次性迭代器。`Dataset.make_one_shot_iterator()`不支持捕获有状态对象的数据集，如`Variable`或`LookupTable`。在这些情况下，请使用`Dataset.make_initializable_iterator()`。（原始错误：无法通过值捕获有状态节点（名称：conv2d/kernel，类型：VarHandleOp）。）

我不太明白：它要求我使用可初始化迭代器，但这种迭代器是为占位符准备的。这里，我有的是原始数据！

回答：

你使用管道的做法是错误的。tf.data的理念是为模型提供输入管道，而不是包含模型本身。你试图将模型作为管道的一个步骤（你的步骤4）来适应，但正如错误所示，这行不通。

你应该做的是按你现在的方式构建模型，然后在输入数据上调用model.predict，以获得你想要的特征（作为计算值）。如果你想添加进一步的计算，可以在模型中添加，因为predict调用将运行模型并返回输出层的数值。

附注： image_features_extract_model = tf.keras.Model(new_input, hidden_layer) 完全不相关，考虑到你对输入和输出张量的选择：输入是image_model的输入，输出是image_model的输出，因此image_features_extract_model与image_model完全相同。

最终代码应该是这样的:

X_train_slice, Y_train = build_dataset(number_of_samples)X_train = tf.data.Dataset.from_tensor_slices(X_train_slice)def format_video(video):    frames = tf.image.resize_images(video, (299,299))    frames = tf.keras.applications.inception_v3.preprocess_input(frames)    return framesX_train = X_train.map(lambda video: format_video(video))image_model = tf.keras.applications.InceptionV3(include_top=False,                                                weights='imagenet')bottlenecks = image_model.predict(X_train)# 对你的瓶颈做一些处理

学技术

为什么我在使用InceptionV3后无法再使用我的数据集？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复