Home IT技术用于从嘈杂音频文件中识别单词的机器学习库

用于从嘈杂音频文件中识别单词的机器学习库

IT技术 xiaolong · 2025年4月8日 · 0 Comment

我们一直在尝试从嘈杂的音频文件中识别单词，我已经做了很多谷歌搜索，使用了许多API来从嘈杂的音频中分割单词，还尝试了SOX，它的准确度还算不错（80%的单词分割正确），现在我需要识别这些单词，我尝试了从Java调用Google语音API，但由于一些剩余的噪音，它的准确度不如我所希望的那么高。

我们也尝试了音频比较，因为我们有一系列包含字典中单词的波形文件，比较是通过MusicG库进行的，但结果并不如预期的那样好。

最近我一直在考虑一些机器学习算法，我可以教程序，例如，音频“Dog”对应的是字符串“dog”，然后重复这个过程，直到程序能够自动识别它。

有没有好的、已知的库可以处理音频文件的这种情况？如果有，最好的教学方法是什么？是音频文件的字节？还是波长？

另外，如果你知道其他方法可以达到我的期望，请告诉我。

回答：

你可以考虑结合使用隐藏马尔可夫模型（HMM）和一组音频文件进行训练。HMM方法模拟符号之间的转换概率。你可以调整在决策过程中“记住”的状态数量。

作为分析的一部分，你需要考虑时间变形方面——即训练和匹配的音频之间的符号内暂停会有所不同。

@[隐藏人名] 补充说，MFCC是将语音转换为适合HMM的符号的标准方法。

java machine-learning sox

发表回复取消回复