在PyTorch LSTM文档中提到:
batch_first – 如果为True,则输入和输出张量将以(batch, seq, feature)的形式提供。默认:False
我想知道为什么他们选择默认的批次维度为第二个而不是第一个。对我来说,将数据想象成[batch, seq, feature]
比[seq, batch, feature]
更容易理解。前者对我来说更直观,而后者则显得反直觉。
我想在这里问问是否有任何原因导致这种设计,如果你能帮助我理解这点,我将不胜感激。
回答:
据我所知,没有一个充分的理由来解释这一点。如今,与其他框架不同,如你所说,形状更直观的框架如Keras,但这只是为了与旧版本兼容。如果修改一个默认参数来改变向量的维度,可能会导致一半的模型在更新到新版本的PyTorch时崩溃。
可能最初的想法是将时间维度放在第一位,以便简化随时间的迭代过程,这样你就可以简单地使用
for t, out_t in enumerate(my_tensor)
而不是做一些不太直观的事情,比如使用my_tensor[:, i]
访问,并且必须在range(time)
中迭代。