GPT

很多答主都提到了，从技术角度来看，声音克隆技术并不新，别的不说，去年大火一阵的 AI 孙燕姿应该大家都还有印象。「AI 孙燕姿」火遍全网，随着技术的发展，未来 AI 歌手会成为主流吗？这一技术还可能应用到哪些场景？用孙燕姿的声音唱各种不同的歌曲就是声音克隆，而且难度还更好，因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了，否则也不会出圈。更值得注意的是，AI 孙燕姿并不是某个大厂搞出来的，而是好多爱好者自己 DIY 出来的。可见，这个东西在技术上真的没有什么大的突破。如果大家自己想玩玩 tts，我很推荐这个库，各种功能都有，自然也包括声音克隆。但开源的音色跟闭源确实没法比。 https://github.com/coqui-ai/TTS 但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问，OpenAI 是要把自己打造成 AI 能力的首选，现在靠着 GPT 和 DALLE系列，和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域，Sora 的视频也是没有声音的。音频这块一直还没有起来，他家的 tts 功能我是用过的，我感觉体验很不错，虽然还没有老牌厂商例如微软那么精细的控制功能，但真的很简单易用，效果也好。这波声音克隆自然是比单纯 tts 更有可玩性，是更容易吸引用户的功能点。以后，OpenAI 的 API key 应该是一个像样的应用开发者的必备之物了。

首先批评一下知乎，类似的问题翻来覆去提。感觉和上次的这个问题很像：https://www.zhihu.com/answer/2869775692 我尝试问了下GPT以下问题，它的回答还挺乐观，哈哈。我：什么是情感？ GPT：情感是一种心理状态，它指的是一种强烈的感情，如欢乐、悲伤、焦虑、愤怒、害怕、爱、厌恶等。它们可以由个人的生活经历、社会环境、文化和道德价值观等因素引起。我：语言模型，例如GPT是否具有情感？ GPT：不具有情感。GPT（Generative Pre-trained Transformer）是一种预训练的自然语言处理模型，它可以帮助机器理解和生成自然语言，但它本身并不具有情感。我：为什么说语言模型不具有情感？能说得具体一些吗？ GPT：语言模型本身并不具有情感，因为它们只是一种机器学习模型，它们可以帮助机器理解和生成自然语言，但不能感受和理解情感。语言模型的输出仅仅反映了输入的语义，它不能表达情感，也不能理解和识别情感。我：未来有可能让语言模型具有情感吗？ GPT：是的，未来有可能让语言模型具有情感。随着技术的发展，许多机器学习技术和深度学习技术已经可以用来识别和理解情感，而语言模型也可以通过这些技术来学习情感，从而具有情感。就像GPT自己回答的一样，语言模型目前是没有情感的，本质上还是对文本之间概率分布的刻画。但因为人是有情感和思维的，对语言模型表现出来的一些能力，会不由自主地认为它具有情感或者思维。所以从“我要我觉得，不要你觉得”的角度，这个问题没啥讨论的意义。一千个观众眼里有一千个GPT。在上面那个回答里，我还举了两个思维实验来说明这个观点。但评论区网友上来就给我一顿喷。讲真我当时心理是有点小波澜，但我现在学乖了，多利用GPT来回答问题，被网友骂成狗也没啥心理负担。我个人认为，按照目前的技术方向，未来也无法获得思维和情感。但这不是个经济的想法。应该像GPT一样，大声说会就完了，然后再说一堆车轱辘话。毕竟未来的事，谁知道呢。我在知乎的原回答

OpenAI 公布声音克隆新技术，仅需 15 秒音频样本即可模仿任何说话者，将带来哪些影响？

ChatGPT未来会拥有自我情感和思维吗？