CNN LSTM keras用于视频分类

我创建了一个视频数据集，每个视频的尺寸为5（帧）x 32（宽）x 32（高）x 4（通道）。我尝试使用CNN LSTM网络对这些视频进行二分类，但我对输入形状和如何重塑我的数据集以训练网络感到困惑。

model = Sequential()
model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv1', input_shape=??)))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool1')))
model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv2')))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool2')))
model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv3')))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool3')))
model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv4')))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool4')))
model.add(TimeDistributed(Flatten()))
model.add(LSTM(256, return_sequences=False, dropout=0.5))
model.add(Dense(1, activation='sigmoid'))

我的模型中是否遗漏了什么？

回答：

你的输入形状应该是(batch_size, time steps, height, width, channels)。因此，它应该是一个5维张量。

此外，你的input_shape参数应该这样设置。它应该是TimeDistributed层的参数，而不是Conv2D层的参数，因为TimeDistributed是第一层。这里，我展示了输入形状对于以下情况的设置：

任意数量样本的批次
5个时间步（视频帧）
32像素高（高度）
32像素宽（宽度）
4个通道

model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv1'), input_shape=(5, 32, 32, 4)))

学技术

CNN LSTM keras用于视频分类

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复