我正在训练一个用于视频序列的深度学习多目标跟踪模型。视频帧以1fps
的速度提取并标注。为了利用更平滑的时间连贯性,我在每两个标注帧之间提取了24个中间帧。现在,我已经以25fps
的速度提取了所有帧,但最初标注的地面真实标签仅在每25
帧的间隔可用。
我想通过提供所有平滑的25fps
帧来训练深度学习模型,但在反向传播时,我只想计算和优化标注的1fps
帧的损失。
关于如何处理这个问题有什么建议吗?特别是当我的mini-batch size
小于25
时。
回答:
到目前为止,我做的一个有用的事情是,为未标注的帧设定-1标签,并在计算损失时跳过这些帧。这可能不是最优的解决方案,但它有效。如果有人有更好的想法,请分享。