我想创建一个用于人体姿势识别的数据集,我录制了一组视频,然后从每个视频中提取帧,接着将每个帧分类到相应的姿势中。但问题是,例如,对于站立姿势,我录制了3分钟的视频用于训练和验证集,每个姿势都录制了3分钟的视频用于验证和训练集。对于x姿势也是如此。我后来发现,我会在训练集和验证集中得到相同数量的样本(例如:训练集1000个样本,验证集1000个样本),这会给我带来问题吗?
回答:
通常在分类数据时,训练数据会比验证集多,在我的情况下,我通常希望75%的数据用于训练,25%的数据用于验证。虽然在你的情况下,训练数据似乎足够大,数据中的任何异常值都不会影响你的分类算法。即使训练集的数据少于验证集也没关系,只要训练集足够大,能够充分训练你的算法,并且不受异常值的影响即可。