面部表情识别数据准备用于CNN

我正在研究通过深度学习，特别是CNN进行面部表情识别。我有一些关于数据准备和/或预处理的问题。

我有正面面部表情的分段视频（例如，一个人根据他的/她的注释表达快乐情绪的2-3秒视频）。

注意：我的参与者展示的表情强度较低（不是夸张的表情/微表情）。

总体问题：现在，我应该如何准备我的数据以便使用CNN进行训练（我有点倾向于使用深度学习库TensorFlow）？

问题1：我读了一些基于深度学习的面部表情识别（FER）论文，这些论文建议取表情的高峰（很可能是单张图片）并使用该图片作为训练数据的一部分。我如何知道表情的高峰是什么？我的依据是什么？如果我只取一张图片，是不是会丢失参与者展示的微妙表情的一些重要帧？

问题2：或者，使用OpenCV执行分段视频以检测（例如Viola-Jones）、裁剪并保存每帧的面部，并使用这些图像作为我的训练数据的一部分，并为其贴上适当的标签，这样做是否也正确？我猜想一些面部帧可能是多余的。然而，由于我们知道数据中的参与者展示了低强度的表情（微表情），面部的某些动作也可能很重要。

回答：

正如@unique monkey已经指出的，这通常是一个监督学习任务。如果你希望提取一个独立的“高峰”点，我建议你扫描输入图像，并找出每个序列中参考点偏离受试者休息状态最多的那个图像。

如果你没有得到休息状态，那么视频片段是如何裁剪的？例如，是否让受试者做出表情并保持它？视频片段覆盖了总表情的哪个部分（之前、表达、之后）？取视频片段的一个或两个端点；绘制每个端点的参考点运动图表，并寻找一个帧，在该帧中差异最大，但随后转向另一个端点。

学技术

面部表情识别数据准备用于CNN

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复