我刚开始学习librosa
和voice/sound
分析。我在SO
和google
上搜索了这个问题,但没有找到一个易于理解的答案。
假设有两个声音A
和B
。我想将声音A
转换为声音B
。
如果有这两个声音,是否有可能对A
进行某些处理,使其听起来像B
?
回答:
这种任务有时被称为“风格转换”,保持内容不变(所说的话),但通过风格(韵律,说话的方式)改变表达方式。可以搜索的关键词包括声音风格转换、语音风格转换、音频风格转换、声音翻译、声音克隆、韵律转换。这里有一个对一些方法的解释,来自该领域的实践者Kyle Kastner。
良好的语音风格转换是一项相当困难的任务,近年来已有多篇相关研究论文。许多使用神经网络的语音风格转换系统是基于文本到语音(TTS)/语音合成模型的改编,如Tacotron、Tacotron 2或Wavenet。
Github上有许多神经语音风格转换论文的开源实现,但许多需要相当多的设置才能使用(下载数据集、模型、格式化输入等)。其中一个最受欢迎的替代方案是实时声音克隆,据称只需5秒的音频即可克隆一个声音。另一个例子是https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/