我正在尝试使用Transformer模型进行seq2seq
转换。我的输入和输出形状相同(torch.Size([499, 128])
,其中499是序列长度,128是特征数量)。
我的训练循环是:
for batch in tqdm(dataset): optimizer.zero_grad() x, y = batch x = x.to(DEVICE) y = y.to(DEVICE) pred = model(x, torch.zeros(x.size()).to(DEVICE)) loss = loss_fn(pred, y) loss.backward() optimizer.step()
我的模型是:
import mathfrom typing import finalimport torchimport torch.nn as nnclass Reconstructor(nn.Module): def __init__(self, input_dim, output_dim, dim_embedding, num_layers=4, nhead=8, dim_feedforward=2048, dropout=0.5): super(Reconstructor, self).__init__() self.model_type = 'Transformer' self.src_mask = None self.pos_encoder = PositionalEncoding(d_model=dim_embedding, dropout=dropout) self.transformer = nn.Transformer(d_model=dim_embedding, nhead=nhead, dim_feedforward=dim_feedforward, num_encoder_layers=num_layers, num_decoder_layers=num_layers) self.decoder = nn.Linear(dim_embedding, output_dim) self.decoder_act_fn = nn.PReLU() self.init_weights() def init_weights(self): initrange = 0.1 nn.init.zeros_(self.decoder.weight) nn.init.uniform_(self.decoder.weight, -initrange, initrange) def forward(self, src, tgt): pe_src = self.pos_encoder(src.permute(1, 0, 2)) # (seq, batch, features) transformer_output = self.transformer_encoder(pe_src) decoder_output = self.decoder(transformer_output.permute(1, 0, 2)).squeeze(2) decoder_output = self.decoder_act_fn(decoder_output) return decoder_output
我的输出形状为torch.Size([32, 499, 128])
,其中32
是批次大小,499
是我的序列长度,128
是特征数量。但输出值都是相同的:
tensor([[[0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017], [0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017], [0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017], ..., [0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017], [0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017], [0.0014, 0.0016, 0.0017, ..., 0.0018, 0.0021, 0.0017]]], grad_fn=<PreluBackward>)
我哪里做错了?非常感谢任何帮助。
回答:
有几个方面需要检查。由于您对不同的输入得到了相同的输出,我怀疑某些层将所有输入置零了。所以,检查PositionalEncoding和Transformer的编码器块的输出,确保它们不是常量。但在此之前,请确保您的输入是不同的(例如,尝试注入噪声)。
此外,从图片中可以看出,您的输入和输出是语音信号,采样频率为22.05kHz(我猜的),所以应该有大约1万个特征,但您声称只有128个。这是另一个需要检查的地方。现在,数字499代表某个时间片段。确保您的片段在合理范围内(通常为20-50毫秒,大约30毫秒)。如果是这样,30毫秒乘以500就是15秒,这比您示例中的时间长得多。最后,您在输入中屏蔽了三分之一秒的语音,我认为这太多了。
我认为研究Wav2vec和Wav2vec 2.0这两篇论文会很有帮助,它们成功地利用Transformer编码器在语音识别领域进行了自监督训练。