我想创建一个API,将人类语音转换为国际音标(IPA)格式。我的问题是,哪里有关于如何在原始音频波形级别解码语音的资源?我寻找过API,但大多数找到的只是直接转换为罗马字母。我希望创建一个在区分语音音素方面更准确的工具。
回答:
首先我想说,这个项目比你想象的要困难和复杂得多。语音到文本处理是一个非常庞大且复杂的领域,已经进行了大量的研究。大多数解析器直接发送到罗马字符的原因是,它们的大部分处理是将模糊的声音与其他模糊的声音的上下文进行概率匹配,以猜测哪些词在一起有意义。你更有可能找到提供Soundex而不是IPA的工具。尽管如此,这个问题已经从多个方面得到了解决。你最好的选择可能是CMU的Sphinx项目。
http://cmusphinx.sourceforge.net/wiki/start
这将给你一个很好的开始,但你假设语音到文本处理比实际情况更发达,而且没有简单的方法通过波形以任何准确性将语音转换为IPA。Sphinx非常模块化且完全开源,因此它将为你提供巨大的力量,届时你能否弄清楚如何使其工作就取决于你了,但再次强调。这绝不是一个已经解决的问题。