当将分段的语音音频添加到DNN模型中时,我了解到从最后一层隐藏层提取的特征的平均值就是’d-vector’。在这种情况下,我想知道即使我输入未经学习的说话人的声音,是否也能提取出说话人的d-vector。通过使用这个方法,当输入由多人说话的语音文件的分段值(使用mel-filterbank或MFCC)时,我们能否通过聚类之前提到的提取的d-vector值来区分说话人?
回答:
回答您的问题:
-
在训练模型后,您可以通过将输入向量前向传播通过网络来简单地获取
d-vector
。通常您会查看ANN的输出(最后一层),但您同样可以从倒数第二层(即d-vector
层)获取值。 -
是的,您可以用
d-vector
来区分说话人,因为它以某种方式产生了音频信号的高层次嵌入,这些嵌入对于不同的人具有独特的特征。例如,请参见这篇论文。