HawkInsight

  • 联系我们
  • App
  • 中文

OpenAI推出高级语音模式 部分Plus用户将先行试用

据OpenAI介绍,其推出的高级语音模式可以提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。

7月31日,OpenAI在其官方媒体账号上表示,开始向一小部分ChatGPT Plus用户推出高级语音模式。

当前,实时响应和可打断对话是公认的语音助手技术难点。而据OpenAI介绍,其推出的高级语音模式可以提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。

此前,ChatGPT的语音对话使用了三个独立的模型:一个用于将用户的语音转换为文本,GPT-4理解和处理文本的提示,然后再由第三个模型将文本转换为语音。但GPT-4o是单一多模态模型,能够在没有辅助模型帮助的情况下处理这些任务,从而显著降低对话的延迟。

OpenAI还声称GPT-4o可以感知用户声音中的情绪语调,包括悲伤、兴奋或歌唱。

OpenAI表示,虽然最开始只有一小部分用户可以参与高级语音模式的测试,但该公司计划逐渐扩大测试范围,并计划在秋季让所有ChatGPT Plus用户都能使用。

ChatGPT从去年9月就开始支持语音对话,并于今年5月展示了更高级的版本。不过5月份展示的这个版本曾引发一个版权风波。

今年5月,美国著名演员斯嘉丽·约翰逊(Scarlett Johansson)表示,ChatGPT的语音模式中有一款名为Sky的声音与她的声音出奇相似,她对此感到震惊和愤怒。

而且,根据斯嘉丽的说法,去年OpenAI的首席执行官山姆·阿尔特曼(Sam Altman)曾联系她为ChatGPT配音,但她因个人原因拒绝了。

在斯嘉丽的法律代表联系OpenAI之后,OpenAI表示,“出于对约翰逊女士的尊重,我们已暂停在我们的产品中使用Sky的声音。”

或许是担心类似的版权风波再次上演,OpenAI在宣布推出高级语音模式的帖子下面补充道:“我们用100多名外部红队人员测试了GPT-4o的语音功能,涉及45种语言。为了保护个人隐私,我们对模型进行了训练,使其只能以预设的四种声音说话。”

高级语音模式将仅限于ChatGPT的四种预设声音——Juniper、Breeze、Cove和Ember,这些声音是与付费配音演员合作制作的。

OpenAI还表示,其已经构建了系统来阻止ChatGPT输出除上述四种声音之外的声音,并实施了防护措施来屏蔽对暴力或版权内容的请求。

·原创文章

免责声明:本文观点来自原作者,不代表Hawk Insight的观点和立场。文章内容仅供参考、交流、学习,不构成投资建议。如涉及版权问题,请联系我们删除。