OpenAI 公布声音克隆新技术,仅需 15 秒音频样本即可模仿任何说话者,将带来哪些影响?

很多答主都提到了,从技术角度来看,声音克隆技术并不新,别的不说,去年大火一阵的 AI 孙燕姿应该大家都还有印象。 「AI 孙燕姿」火遍全网,随着技术的发展,未来 AI 歌手会成为主流吗?这一技术还可能应用到哪些场景? 用孙燕姿的声音唱各种不同的歌曲就是声音克隆,而且难度还更好,因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了,否则也不会出圈。更值得注意的是,AI 孙燕姿并不是某个大厂搞出来的,而是好多爱好者自己 DIY 出来的。可见,这个东西在技术上真的没有什么大的突破。 如果大家自己想玩玩 tts,我很推荐这个库,各种功能都有,自然也包括声音克隆。但开源的音色跟闭源确实没法比。 https://github.com/coqui-ai/TTS 但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问,OpenAI 是要把自己打造成 AI 能力的首选,现在靠着 GPT 和 DALLE系列,和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域,Sora 的视频也是没有声音的。音频这块一直还没有起来,他家的 tts 功能我是用过的,我感觉体验很不错,虽然还没有老牌厂商例如微软那么精细的控制功能,但真的很简单易用,效果也好。这波声音克隆自然是比单纯 tts 更有可玩性,是更容易吸引用户的功能点。 以后,OpenAI 的 API key 应该是一个像样的应用开发者的必备之物了。

March 30, 2024 · 1 min · Yuanhao

ChatGPT未来会拥有自我情感和思维吗?

首先批评一下知乎,类似的问题翻来覆去提。感觉和上次的这个问题很像:https://www.zhihu.com/answer/2869775692 我尝试问了下GPT以下问题,它的回答还挺乐观,哈哈。 我:什么是情感? GPT:情感是一种心理状态,它指的是一种强烈的感情,如欢乐、悲伤、焦虑、愤怒、害怕、爱、厌恶等。它们可以由个人的生活经历、社会环境、文化和道德价值观等因素引起。 我:语言模型,例如GPT是否具有情感? GPT:不具有情感。GPT(Generative Pre-trained Transformer)是一种预训练的自然语言处理模型,它可以帮助机器理解和生成自然语言,但它本身并不具有情感。 我:为什么说语言模型不具有情感?能说得具体一些吗? GPT:语言模型本身并不具有情感,因为它们只是一种机器学习模型,它们可以帮助机器理解和生成自然语言,但不能感受和理解情感。语言模型的输出仅仅反映了输入的语义,它不能表达情感,也不能理解和识别情感。 我:未来有可能让语言模型具有情感吗? GPT:是的,未来有可能让语言模型具有情感。随着技术的发展,许多机器学习技术和深度学习技术已经可以用来识别和理解情感,而语言模型也可以通过这些技术来学习情感,从而具有情感。 就像GPT自己回答的一样,语言模型目前是没有情感的,本质上还是对文本之间概率分布的刻画。但因为人是有情感和思维的,对语言模型表现出来的一些能力,会不由自主地认为它具有情感或者思维。所以从“我要我觉得,不要你觉得”的角度,这个问题没啥讨论的意义。一千个观众眼里有一千个GPT。 在上面那个回答里,我还举了两个思维实验来说明这个观点。但评论区网友上来就给我一顿喷。讲真我当时心理是有点小波澜,但我现在学乖了,多利用GPT来回答问题,被网友骂成狗也没啥心理负担。 我个人认为,按照目前的技术方向,未来也无法获得思维和情感。但这不是个经济的想法。应该像GPT一样,大声说会就完了,然后再说一堆车轱辘话。毕竟未来的事,谁知道呢。 我在知乎的原回答

February 16, 2023 · 1 min · Yuanhao