用于从嘈杂音频文件中识别单词的机器学习库

我们一直在尝试从嘈杂的音频文件中识别单词,我已经做了很多谷歌搜索,使用了许多API来从嘈杂的音频中分割单词,还尝试了SOX,它的准确度还算不错(80%的单词分割正确),现在我需要识别这些单词,我尝试了从Java调用Google语音API,但由于一些剩余的噪音,它的准确度不如我所希望的那么高。

我们也尝试了音频比较,因为我们有一系列包含字典中单词的波形文件,比较是通过MusicG库进行的,但结果并不如预期的那样好。

最近我一直在考虑一些机器学习算法,我可以教程序,例如,音频“Dog”对应的是字符串“dog”,然后重复这个过程,直到程序能够自动识别它。

有没有好的、已知的库可以处理音频文件的这种情况?如果有,最好的教学方法是什么?是音频文件的字节?还是波长?

另外,如果你知道其他方法可以达到我的期望,请告诉我。


回答:

你可以考虑结合使用隐藏马尔可夫模型(HMM)和一组音频文件进行训练。HMM方法模拟符号之间的转换概率。你可以调整在决策过程中“记住”的状态数量。

作为分析的一部分,你需要考虑时间变形方面——即训练和匹配的音频之间的符号内暂停会有所不同。

@[隐藏人名] 补充说,MFCC是将语音转换为适合HMM的符号的标准方法。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注