Home attention-model

attention-model

Transformer编码器中的查询填充掩码和键填充掩码

xiaolong · 2025年5月30日 · 0 Comment

我在使用pytorch的nn.MultiheadAtt…

为什么我的注意力模型不如非注意力模型

xiaolong · 2025年5月29日 · 0 Comment

我的任务是将英文句子转换为德文句子。我首先使用普通的编…

序列到序列模型 – 用于时间序列预测

xiaolong · 2025年5月28日 · 0 Comment

我尝试构建了一个序列到序列模型，用于根据最初的几个输入…

无隐藏状态的注意力网络？

xiaolong · 2025年5月27日 · 0 Comment

我想知道编码器的隐藏状态对注意力网络的作用有多大。当我…

使用Bahdanau注意力机制上下文向量的形状

xiaolong · 2025年5月26日 · 0 Comment

我在这里查看Bahdanau注意力类。我注意到上下文向…

是否可以将原生tf Attention层与keras的Sequential API一起使用？

xiaolong · 2025年5月26日 · 0 Comment

是否可以将原生tf Attention层与keras的…

在层级注意力网络中，输入层代表什么

xiaolong · 2025年5月24日 · 0 Comment

我正在尝试理解层级注意力网络（HAN）的概念，我在网上…

如何使用LSTM的前一个输出和隐藏状态进行注意力机制？

xiaolong · 2025年4月14日 · 0 Comment

我目前正在尝试根据这篇论文编写注意力机制：&#8220…

如何在变量作用域中重用LSTM层和变量（注意力机制）

xiaolong · 2025年4月14日 · 0 Comment

我的代码中有一个问题，我希望在lstm_decoder…

注意机制中的”source hidden state”指的是什么？

xiaolong · 2025年4月14日 · 0 Comment

注意权重是按以下方式计算的：我想知道h_s指的是什么…

LSTM注意力机制如何处理可变长度输入

xiaolong · 2025年4月12日 · 0 Comment

LSTM的注意力机制是一个直接的softmax前馈网络…

在Transformer模型中，编码器如何将注意力矩阵传递给解码器？’Attention is all you need’?

xiaolong · 2025年4月5日 · 0 Comment

我在阅读著名的论文‘Attention i…