我目前正在开发一个语音识别项目,并试图选择最有意义的特征。大多数相关论文建议使用零交叉率、基频F0和MFCC特征,因此我也在使用这些。我的问题是,一个时长为00:03的训练样本有268个特征。考虑到我正在进行一个多类分类项目,每个类别有50多个样本的训练,如果包含所有MFCC特征,项目可能会受到维度灾难的影响,或者’降低’其他特征的重要性。所以我的问题是,我应该包含所有MFCC特征吗?如果不包含,你能建议一个替代方案吗?
回答:
你不应该使用F0和零交叉率,它们太不稳定了。你可以简单地增加你的训练数据,并使用MFCC,它们具有很好的表示能力。但记得要对它们进行均值归一化处理。