如何解码语音输入

我想创建一个API,将人类语音转换为国际音标(IPA)格式。我的问题是,哪里有关于如何在原始音频波形级别解码语音的资源?我寻找过API,但大多数找到的只是直接转换为罗马字母。我希望创建一个在区分语音音素方面更准确的工具。


回答:

首先我想说,这个项目比你想象的要困难和复杂得多。语音到文本处理是一个非常庞大且复杂的领域,已经进行了大量的研究。大多数解析器直接发送到罗马字符的原因是,它们的大部分处理是将模糊的声音与其他模糊的声音的上下文进行概率匹配,以猜测哪些词在一起有意义。你更有可能找到提供Soundex而不是IPA的工具。尽管如此,这个问题已经从多个方面得到了解决。你最好的选择可能是CMU的Sphinx项目。

http://cmusphinx.sourceforge.net/wiki/start

这将给你一个很好的开始,但你假设语音到文本处理比实际情况更发达,而且没有简单的方法通过波形以任何准确性将语音转换为IPA。Sphinx非常模块化且完全开源,因此它将为你提供巨大的力量,届时你能否弄清楚如何使其工作就取决于你了,但再次强调。这绝不是一个已经解决的问题。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注