我想预测二维坐标的序列。但我不只想预测最可能的未来路径,而是想预测所有最可能的路径,并在网格地图上进行可视化。为此,我有包含40000个序列的训练数据。每个序列包含10个二维坐标对作为输入,6个二维坐标对作为标签。所有坐标都在固定的值范围内。我预测所有可能路径的第一步是什么?为了得到所有可能的路径,我需要在最后应用softmax,对吗?每个网格中的单元格都是一个类别。但如何处理数据以反映这种网格结构呢?有什么想法吗?
回答:
恐怕softmax激活函数并不能解决这个问题;如果你有无限的组合,或者即使是有限的组合但不在你的数据中出现,就无法将其转化为多类分类问题(或者即使你这样做,也会失去普遍性)。
我能想到的唯一方法是使用变分编码的循环模型。首先,你有很多带注释的数据,这是个好消息;一个输入序列X (10,2,) 的循环网络肯定能够预测一个序列Y (6,2,)。但由于你不只想要一个,而是想要所有可能的序列,这还不够。你在这里的隐含假设是你的序列背后隐藏着某个概率空间,这影响了它们随时间的变化;因此,要正确地建模这些序列,你需要建模那个潜在的概率空间。变分自编码器(VAE)正是这样做的;它学习潜在空间,因此在推理过程中,输出预测依赖于对该潜在空间的采样。对同一输入进行多次预测可以得到不同的输出,这意味着你最终可以对预测进行采样,以经验上近似潜在输出的分布。
不幸的是,VAE无法在stackoverflow的一个段落中解释清楚,即使可以,我也不是最有资格尝试的人。尝试在网上搜索LSTM-VAE,并做好耐心准备;你可能需要做一些学习,但这绝对是值得的。同时,查看Pyro或Edward可能也是个好主意,这些是为Python设计的概率网络库,比Keras更适合手头的任务。