OpenAI 公布声音克隆新技术，仅需 15 秒音频样本即可模仿任何说话者，将带来哪些影响？

很多答主都提到了，从技术角度来看，声音克隆技术并不新，别的不说，去年大火一阵的 AI 孙燕姿应该大家都还有印象。

「AI 孙燕姿」火遍全网，随着技术的发展，未来 AI 歌手会成为主流吗？这一技术还可能应用到哪些场景？

用孙燕姿的声音唱各种不同的歌曲就是声音克隆，而且难度还更好，因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了，否则也不会出圈。更值得注意的是，AI 孙燕姿并不是某个大厂搞出来的，而是好多爱好者自己 DIY 出来的。可见，这个东西在技术上真的没有什么大的突破。

如果大家自己想玩玩 tts，我很推荐这个库，各种功能都有，自然也包括声音克隆。但开源的音色跟闭源确实没法比。

TTS

https://github.com/coqui-ai/TTS

但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问，OpenAI 是要把自己打造成 AI 能力的首选，现在靠着 GPT 和 DALLE系列，和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域，Sora 的视频也是没有声音的。音频这块一直还没有起来，他家的 tts 功能我是用过的，我感觉体验很不错，虽然还没有老牌厂商例如微软那么精细的控制功能，但真的很简单易用，效果也好。这波声音克隆自然是比单纯 tts 更有可玩性，是更容易吸引用户的功能点。