我们一直在尝试从嘈杂的音频文件中识别单词,我已经做了很多谷歌搜索,使用了许多API来从嘈杂的音频中分割单词,还尝试了SOX,它的准确度还算不错(80%的单词分割正确),现在我需要识别这些单词,我尝试了从Java调用Google语音API,但由于一些剩余的噪音,它的准确度不如我所希望的那么高。
我们也尝试了音频比较,因为我们有一系列包含字典中单词的波形文件,比较是通过MusicG库进行的,但结果并不如预期的那样好。
最近我一直在考虑一些机器学习算法,我可以教程序,例如,音频“Dog”对应的是字符串“dog”,然后重复这个过程,直到程序能够自动识别它。
有没有好的、已知的库可以处理音频文件的这种情况?如果有,最好的教学方法是什么?是音频文件的字节?还是波长?
另外,如果你知道其他方法可以达到我的期望,请告诉我。
回答:
你可以考虑结合使用隐藏马尔可夫模型(HMM)和一组音频文件进行训练。HMM方法模拟符号之间的转换概率。你可以调整在决策过程中“记住”的状态数量。
作为分析的一部分,你需要考虑时间变形方面——即训练和匹配的音频之间的符号内暂停会有所不同。
@[隐藏人名] 补充说,MFCC是将语音转换为适合HMM的符号的标准方法。