只需5秒克隆语音就可以实时生成任意语音的Python源代码

语音克隆技术,即声音复刻,是通过机器学习自己的声音,然后在把给定的文字合成为声音时,产生几乎和自己相同的音调音色,就像是自己的声音。声音复刻的应用场景非常多,例如智能回电、智能主播、智能配音和讲故事等等。

某大厂的什么来电的声音复刻,需要自己先读1000个字让机器学习,然后就可以用你的声音音色回复电话了。体验之后,觉得音色还原度还是很高的,效果不错。

一个叫做Corentin Jemine的比利时小伙,在GitHub上公布了一份声音复刻的Python源代码,声称只需5秒克隆语音就能实时生成任意语音。

谷歌AI的Ye Jia、Yu Zhang、Ron J. Weiss等人发了一篇基于神经网络的文本到语音(TTS)合成的论文,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis(SV2TTS),而该开源代码正是Corentin Jemine对该论文进行的代码实现。

Corentin Jemine这哥们很年轻,刚刚从比利时列日大学(University of Liege)的机器学习专业硕士毕业,现在是语音人工智能初创公司Resemble AI的一名工程师。

GitHub上的Python源代码:
Real-Time-Voice-Cloning

登录注册后才能评论。