Home IT技术 Pytorch: 为什么在默认的LSTM中批次是第二个维度？

Pytorch: 为什么在默认的LSTM中批次是第二个维度？

IT技术 xiaolong · 2025年5月30日 · 0 Comment

在PyTorch LSTM文档中提到：

batch_first – 如果为True，则输入和输出张量将以(batch, seq, feature)的形式提供。默认：False

我想知道为什么他们选择默认的批次维度为第二个而不是第一个。对我来说，将数据想象成[batch, seq, feature]比[seq, batch, feature]更容易理解。前者对我来说更直观，而后者则显得反直觉。

我想在这里问问是否有任何原因导致这种设计，如果你能帮助我理解这点，我将不胜感激。

回答：

据我所知，没有一个充分的理由来解释这一点。如今，与其他框架不同，如你所说，形状更直观的框架如Keras，但这只是为了与旧版本兼容。如果修改一个默认参数来改变向量的维度，可能会导致一半的模型在更新到新版本的PyTorch时崩溃。

可能最初的想法是将时间维度放在第一位，以便简化随时间的迭代过程，这样你就可以简单地使用

for t, out_t in enumerate(my_tensor)

而不是做一些不太直观的事情，比如使用my_tensor[:, i]访问，并且必须在range(time)中迭代。

bilstm deep-learning machine-learning pytorch

发表回复取消回复