抚平担忧 OpenAI尝试解决「声音引擎」造假问题

在ChatGPT的制造商OpenAI推出其声音技术的同时,该公司也积极回应了公众的担忧,并提出了一系列解决方案。OpenAI始终走在创新的前沿,继不久前推出文本转视频的AI模型Sora后,现在又带来了最新的语音生成AI模型——“声音引擎”(Voice Engine)。这一工具仅凭15秒的音频样本,就能以与说话者极为相似的自然语音朗读用户输入的任何指令,其表现令人惊叹,但同时也引发了广泛的担忧。

据报道,针对公众对这项技术的担忧,OpenAI提出了四项关于语音技术安全应用的建议,并阐述了该工具如何造福社会。尽管声音引擎早在2022年就已进入实验室阶段,但OpenAI表示,在发布时会持谨慎态度,并希望就合成语音技术的责任部署展开深入对话。

四项解决策略
针对公众担忧的语音伪造和欺诈问题,OpenAI提出了以下四项建议:

  1. 逐步淘汰基于语音的银行账户或敏感信息身份验证方式。
  2. 探索制定保护个人语音在AI中使用的政策。
  3. 教育公众了解AI技术的能力和局限性,包括识别虚假AI内容。
  4. 加速开发和采用技术,以追踪音频和视频内容的来源,确保用户能明确区分与真实人物或经授权的AI的互动。

OpenAI呼吁政府探索制定保护个人声音在AI中使用的政策,并教育公众了解AI技术的能力和局限性,包括识别欺诈性AI内容的可能性。同时,OpenAI建议在广泛部署合成语音技术时,应配备语音验证功能,确保原始说话者知晓其声音被使用。此外,他们还建议设立一个“不可接受的语音列表”,用于检测和防止创建与知名人物高度相似的语音。

声音引擎的应用场景
OpenAI还指出,声音引擎具有广泛的应用场景,如为无法阅读的人群和儿童提供自然语音的阅读帮助,或帮助突然失语或言语退化的患者恢复声音。该公司还分享了合作伙伴在现实世界中应用该技术的实例,如教育科技公司Age of Learning利用它进行脚本配音,而“AI视觉说故事”应用HeyGen则能在保留原始说话者口音和声音的同时,生成流畅录制内容的翻译版本,如使用法语发音者的音频样本,AI就能生成带有法国口音的英语语音。

谨慎测试阶段
鉴于潜在的滥用风险,OpenAI表示,声音引擎目前仅与“一小群值得信赖的合作伙伴”进行测试,以确定该工具是否及如何允许更广泛的使用。这些测试合作伙伴都同意,不会在未经人们明确同意的情况下创建其声音,并会向听众明确说明所听到的声音是AI生成的。

标签