还在等待 ChatGPT 的调情语音模式吗?你的等待时间变得更长了
上个月,我撰写了一篇文章,预告GPT-4o的一项核心功能将延迟数周面世,这一功能即是ChatGPT智能手机应用程序中内置的高级语音对话模式,其性能远超我们目前所见过的任何个人助理。然而,时至今日,OpenAI宣布该功能仍需至少一个月的时间方能准备就绪。
OpenAI在最近的一条推文中透露,公司原计划于6月底向部分用户推出该功能。但出于安全考量,公司决定额外投入一个月的时间,专注于提升模型检测和拒绝不当内容的能力。用OpenAI的话来说,他们正在“加强模型识别和过滤特定内容的能力”。
此外,OpenAI还指出,基础设施方面的挑战也是导致延迟的原因之一。这并不意外,因为ChatGPT在过去一个月内已多次遭遇中断。在此之前,我个人在使用常规语音对话模式时也遇到过卡顿和伪影现象。GPT-4o可能需要更多的计算能力来支撑,特别是OpenAI承诺它能在短短的232毫秒内对音频输入做出响应。
尽管OpenAI表示新语音模式将在下个月开放,但据报道,已有小部分用户收到了应用内的测试邀请。该邀请页面将“高级语音”描述为“有限alpha”版本的新功能。然而,接受邀请似乎并未能解锁对新语音模式的访问,这可能意味着弹出窗口的出现比预期更早了一些。
与此同时,OpenAI的推文指出,alpha版本将于下个月向小部分用户开放,而正式版则计划在秋季推出。但公司也提醒,发布时间表将依据内部安全性和可靠性标准的达成情况而定。
那么,ChatGPT的高级语音模式究竟能带来哪些惊喜呢?
我们在5月初的OpenAI春季更新活动上首次目睹了GPT-4o的新语音模式。随后几周内,公司发布了一系列演示,展示了ChatGPT不仅能够进行流畅的即时对话,还能调节声音以模仿讽刺、笑声等情感表达。OpenAI还宣称,该模型能够检测用户声音中的情绪并作出相应反应,这在聊天机器人领域尚属首次。
一些演示视频还结合了GPT-4o的语音和视觉功能,使聊天机器人能够回答关于现实生活的问题。例如,可汗学院创始人萨尔·可汗展示了如何将该功能用作解答数学问题的屏幕教学工具。
根据OpenAI的推文,新的视频和屏幕共享功能将与语音模式分别推出。然而,所有这些高级功能都将被纳入该公司的付费ChatGPT Plus订阅中。截至目前,每月20美元的订阅费用仅解锁了基于文本的GPT-4o模型访问权限以及自定义GPT等附加功能。