为视频自动选择缩略图

我们都听说过YouTube使用深度学习为用户视频选择代表性缩略图。但是有没有人尝试过在tensorflow上成功实现这一功能呢？

我确实找到了https://github.com/yahoo/hecate，它声称可以做到这一点，但我对结果不太满意。实际上，我使用ffmpeg提取关键帧，然后计算颜色分布来选择“最佳”图像，效果更好。

但我很想知道是否有人使用更“智能”的算法做得更好。

回答：

我想明确告诉提问者，这个回答并不代表对方法的正式描述，而是以一种直观的方式描述可能的方法。

假设一个视频由n帧组成，每一帧都可以表示为一个3D张量（高度，宽度，通道）。可以使用卷积神经网络（CNNs）为每一帧生成一个潜在表示。

一个视频可以表示为一系列帧（f_1, f_2, …, f_n）。最适合序列建模的神经网络架构是循环神经网络（RNNs）。我们可以使用RNNs来编码由CNN生成的视频帧序列的潜在表示。之后，你将为RNN生成的每一帧得到一个潜在表示（f_1, f_2, …, f_n），这些表示直接依赖于前面的表示（这是RNNs的一个众所周知的特性）。

正如最近发布的Youtube-8M数据集中所示，每个视频都关联了高质量的缩略图，因此你可以将它们用作目标。特别是，考虑到RNN在帧序列上生成的潜在表示，你可以生成一个上下文向量c，其生成方式如下：

alpha = softmax(FNN(f_1), FNN(f_2), ..., FNN(f_n))c = f_1 * alpha_1 + f_2 * alpha_2 + ... + f_n * alpha_n

其中FNN是一个前馈神经网络，它接收帧f_i的潜在表示f_i并生成一个分数，代表其在当前序列中的重要性。我们可以利用上下文向量c来预测视频中最合适的帧。

在我看来，定义网络应解决的最小化问题的损失函数有两种可能的策略。第一种比第二种更简单。我简要描述如下：

预测缩略图索引：通过利用上下文向量c，我们可以训练网络预测一个整数值，该值表示所选帧的位置，通过最小化生成索引与目标索引之间的交叉熵损失来实现；
重构误差：通过利用上下文向量c，我们可以训练网络生成一个新图像，通过最小化模型生成的图像与目标图像之间的重构误差来实现。

我实际上并没有尝试过这些方法，所以我不能确定我的方法是否有效，但我相信这是完成这一任务的合理方法。无论如何，我希望这个回答能帮助提问者更好地理解如何解决这一任务。

学技术

为视频自动选择缩略图

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复