OpenAI于2024年5月正式公布了GPT-4o版本,其中的“o”指的是“全方位”或“无所不在”的意思,这是继GPT-4之后的一次重大更新。在发布会上,OpenAI展示了GPT-4o的多项新功能,其中包括更强大的自然语言处理能力、更快的回应时间,以及更加人性化的互动方式。
OpenAI还透露预计会将ChatGPT 4o版本开放给免费ChatGPT账号使用,那么究竟GPT-4o有什么神奇之处?功能是否更加强大?本篇文章将整合GPT-4o的所有详细应用,帮助你快速上手!
ChatGPT-4o可以做什么?
自然语言处理能力增强
ChatGPT 4o具备更优秀的语言理解和生成能力,能够处理更复杂的语句结构和语义。这让它在写作辅助、内容生成和语言翻译等方面表现更加优异,能够更好地理解上下文,做出的回应更加贴合用户的指令意图。
更快速的回应时间
相较于GPT-4,ChatGPT-4o的运算速度明显提升,可以在最短232毫秒(0.232秒)、平均320毫秒(0.32秒)的时间内回应问题。作为比较,GPT-3.5及GPT-4的语音模式回应时间,平均分别为2.8秒和5.4秒。
这样一来,用户在与GPT-4o互动时,能够感受到明显的速度提升,更像是与真人自然对话。
即时同步翻译
GPT-4o精通多达50种语言,再加上优化过的语音回应时间,能够达到“零延迟”的即时翻译,且翻译效果不仅快速,准确度也很高,让跨语言沟通变得轻而易举。
用户甚至可以在ChatGPT 4o进行回复时,打断它的对话,同时问它新问题,AI会根据修改后的答案作出回应。
生动的语音生成
在语音部分,GPT-4o也有显著的技术提升,能够生成更加自然和流畅的语音。
根据OpenAI的说法,ChatGPT 4o能够“读懂”用户的表情与情绪,并做出更生动、符合情境的语气回复,它能模仿多种语音风格和语调,OpenAI展示了GPT-4o听完一个笑话后,也会像真人一样自然地笑,让人几乎分辨不出是AI机器人。
OpenAI技术长米拉·穆拉蒂(Mira Murati)表示,这项开发更新受到人类交谈过程的启发,让GPT-4o生成的语音更加多样化和自然化,提升用户的聆听体验。
优秀的视觉识别能力
GPT-4o强调提升了视觉识别的能力,无论是图片还是动态视频画面,包含周围人物表情、环境、物体的活动都可以识别得很快速且准确。
这项功能能帮助视障人士行走街头,使用ChatGPT 4o代替视觉识别,并通过语音传达给视障者。从OpenAI的展示视频中可以看到,GPT-4o能够明确传达周围环境,例如哪里是白金汉宫,可以走到哪条路叫出租车,并提醒用户举起手招呼出租车等等。
此外,也可以与GPT-4o视频通话,它能够识别影像并解读你的行为动作。从OpenAI的视频可以看到,ChatGPT-4o建议用户玩剪刀石头布,并准确判断出两次平手,第三次则是由女生获胜。
线上会议的AI小助手
GPT-4o拥有识别画面的能力。使用电脑版的ChatGPT时,可以与它分享屏幕画面,ChatGPT 4o能够辨别屏幕中的画面内容,并与你进行讨论。
从视频中可以看到,用户询问ChatGPT画面中图表上温度最高的月份是几月,ChatGPT便立刻回答出正确的月份。
你也可以将ChatGPT-4o加入在线视讯会议中,让AI充当会议的主持人,随时向它提问,或者请它做会议总结,这都能让会议流程进行顺利,同时提升工作效率。
线上家教引导学生作题
GPT-4o的推出,同样是教育界的辅助也是威胁!
可汗学院创始人Salman Khan发布了一条使用GPT-4o作为辅助,引导学生解题的影片。可以看到ChatGPT-4o的新模型如同家教老师般,通过语音耐心引导学生思考题目并作答,家长可以指定AI不可以先给答案,而是通过一步步的教学,让学生自己作出解答。
整个过程AI一直表现出鼓励的态度,就算答错也会指引你往正确的方向前进,并且在最后回答正确时,甚至会大力称赞,真的是超贴心的老师!
GPT-4o要花钱吗?费用多少?
OpenAI表示,新模型ChatGPT-4o会在免费版本中开放使用,而付费订阅者则可以享有免费版5倍的消息限制。GPT-4o提供的语音服务,预计将在下个月发布给订阅用户的测试版。
不过同时OpenAI提到,他们担忧语音功能会遭到滥用,因此语音功能暂时不会开放给所有API用户,未来几周会先提供给部分值得信赖的合作伙伴使用,之后的功能发布还有待进一步的消息。