使用librosa将声音A转换为声音B

我刚开始学习librosa和voice/sound分析。我在SO和google上搜索了这个问题，但没有找到一个易于理解的答案。

假设有两个声音A和B。我想将声音A转换为声音B。

如果有这两个声音，是否有可能对A进行某些处理，使其听起来像B？

回答：

这种任务有时被称为“风格转换”，保持内容不变（所说的话），但通过风格（韵律，说话的方式）改变表达方式。可以搜索的关键词包括声音风格转换、语音风格转换、音频风格转换、声音翻译、声音克隆、韵律转换。这里有一个对一些方法的解释，来自该领域的实践者Kyle Kastner。

良好的语音风格转换是一项相当困难的任务，近年来已有多篇相关研究论文。许多使用神经网络的语音风格转换系统是基于文本到语音（TTS）/语音合成模型的改编，如Tacotron、Tacotron 2或Wavenet。

Github上有许多神经语音风格转换论文的开源实现，但许多需要相当多的设置才能使用（下载数据集、模型、格式化输入等）。其中一个最受欢迎的替代方案是实时声音克隆，据称只需5秒的音频即可克隆一个声音。另一个例子是https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/

学技术

使用librosa将声音A转换为声音B

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复