Home IT技术为什么变换器不在每一层都使用位置编码？

为什么变换器不在每一层都使用位置编码？

IT技术 xiaolong · 2025年4月5日 · 0 Comment

在输入被传入变换器模型之前，会添加位置编码，因为如果不这样做，注意力机制将无法区分顺序。然而，编码器和解码器都是分层的，每一层都使用了注意力机制。如果顺序对注意力机制很重要，那么是否应该在每个多头注意力块的输入中添加位置编码，而不是只在模型输入时添加一次呢？

回答：

变换器使用了残差连接，因此位置编码会在编码器和解码器的多层中传递。

artificial-intelligence machine-learning transformer-model

发表回复取消回复