我在做一个语言识别器,原本计划使用神经网络对我的i-vectors进行分类,但是我读了很多论文,它们总是使用其他方法,比如SVM或PLDA,有人能解释一下为什么吗?还是说使用神经网络也是可以的?
回答:
神经网络适用于处理复杂的非线性多特征输入。i-vectors的设计目的是将说话者的空间映射到一个非常简单的空间,在这个空间中,使用逻辑回归或SVM就可以很容易地区分说话者。
如果你想尝试使用神经网络,可以尝试一些端到端的解决方案,比如https://github.com/FlashTek/vggvox-pytorch