用于从嘈杂音频文件中识别单词的机器学习库

我们一直在尝试从嘈杂的音频文件中识别单词,我已经做了很多谷歌搜索,使用了许多API来从嘈杂的音频中分割单词,还尝试了SOX,它的准确度还算不错(80%的单词分割正确),现在我需要识别这些单词,我尝试了从Java调用Google语音API,但由于一些剩余的噪音,它的准确度不如我所希望的那么高。

我们也尝试了音频比较,因为我们有一系列包含字典中单词的波形文件,比较是通过MusicG库进行的,但结果并不如预期的那样好。

最近我一直在考虑一些机器学习算法,我可以教程序,例如,音频“Dog”对应的是字符串“dog”,然后重复这个过程,直到程序能够自动识别它。

有没有好的、已知的库可以处理音频文件的这种情况?如果有,最好的教学方法是什么?是音频文件的字节?还是波长?

另外,如果你知道其他方法可以达到我的期望,请告诉我。


回答:

你可以考虑结合使用隐藏马尔可夫模型(HMM)和一组音频文件进行训练。HMM方法模拟符号之间的转换概率。你可以调整在决策过程中“记住”的状态数量。

作为分析的一部分,你需要考虑时间变形方面——即训练和匹配的音频之间的符号内暂停会有所不同。

@[隐藏人名] 补充说,MFCC是将语音转换为适合HMM的符号的标准方法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注