我们如何使用机器学习从一个可能在整个频域内包含大量噪声的音频片段中提取人声?
回答:
与任何机器学习应用一样,过程很简单:收集样本,设计特征,训练分类器。对于样本,你可以使用你自己的带噪音的录音,或者可以在像freesound.org这样的网络声音集合中找到许多噪音。对于特征,你可以使用均值归一化的梅尔频率系数,你可以在CMUSphinx语音识别工具包中找到实现。对于分类器,你可以选择GMM或SVM。如果你有足够的数据,它会工作得相当好。
为了提高准确性,你可以添加一个假设,即噪声和声音是连续的,因此你可以使用滞后方案(本质上是HMM)来分析检测历史,以检测语音块,而不是单独分析每个帧。