OpenAI再推超真实语音更有真感情
人工智能(AI)巨头OpenAI再度迈出重要一步,正式推出了ChatGPT的升级版语音模式——GPT-4o的超现实语音回应功能。这一新版本将率先向部分ChatGPT Plus用户开放,并预计在2024年秋季逐步覆盖所有Plus用户群体。值得注意的是,尽管OpenAI早在5月就已展示了这一高级语音模式,但由于其声音与知名演员史嘉蕾·乔韩森(Scarlett Johansson)高度相似且带有挑逗性,引发了广泛争议,迫使OpenAI暂时撤下了该功能。
感知并回应语音中的情感语调
据相关报道,与现有的语音模式相比,GPT-4o的进阶语音模式充分利用了其多模态能力,无需依赖辅助模型,即可实现语音转文字、文字处理及文字转语音的全链条操作,从而显著降低了对话的延迟时间。OpenAI还自豪地宣称,GPT-4o能够精准感知语音中的情感语调,包括悲伤、兴奋乃至歌唱等复杂情绪。相比之下,ChatGPT的旧版语音解决方案则需借助三个独立模型——语音转文本模型、处理提示的GPT-4模型以及文本转语音模型,这一过程不仅繁琐,还消耗了大量资源和时间。
用户将获专属通知与指南
OpenAI表示,正采取分阶段的方式逐步推出ChatGPT的新语音功能,以便密切监控其实际应用情况。部分付费用户将在ChatGPT应用程序中收到特别提醒,并随后收到一封包含详细使用指南的电子邮件,帮助他们更好地体验新功能。
OpenAI强化安全措施
自OpenAI进行演示以来,公司已与来自45种不同语言的100多名外部测试人员合作,对GPT-4o的语音能力进行了全面测试。公司计划在八月初发布一份关于所采取安全措施的详细报告。在新的进阶语音模式中,GPT-4o的声音选项被严格限制在四个预设声音上,这些声音均是与付费配音演员合作制作的,分别名为Juniper、Breeze、Cove和Ember。OpenAI发言人Lindsay McCallum强调:“ChatGPT无法模仿任何其他人的声音,无论是个人还是公众人物,并且会阻止生成与这四个预设声音不符的音频输出。”