5月14日,OpenAI宣布推出最新旗舰生成式AI模型GPT-4o,它可以实时处理音频、视觉、并对文本进行推理。可以说这是一种全新的交互模式,它完美复刻电影《Her》的世界,标志着人工智能全感知时代的到来。
GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台
发布会结束后,OpenAI首席执行官Sam Altman在社交媒体上发表了一个单词“Her”,寓意着GPT-4o有望让科幻电影中演绎的剧情走入现实。#autodl#恒源云#矩池云#算力云#恒源云 实例迁移#autodl 官网#autodi#GpuMall#GPU云#AutoDL#AotuDL 算力云#GpuMall智算云#AI#大数据#算力租赁#大模型#深度学习#人工智能#算力变现
GPT-4o的“o”代表“omni”,意为全能,是迈向更自然人机交互的一步。与现有模型相比,GPT-4o它在视觉和音频理解方面尤其出色,它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。
在接入GPT-4o后,ChatGPT可接受输入任意文本、音频和图像的组合,并可输出生成文本、音频和图像的任意组合。借助GPT-4o,OpenAI跨文本、视觉和音频,端到端地训练了一个新模型,将所有输入和输出都在该模型中交由同一神经网络进行处理。而在API方面,GPT-4o的价格是GPT-4-turbo的一半,速度是GPT-4-turbo的两倍,限制速率高5倍。
发布会上,OpenAI前沿研究部门主管Mark Chen展示了ChatGPT在接入GPT-4o后的实时语音交互能力,如何识别用户语音中的情绪,以及如何用不同的声音朗读AI生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。
除了语音情绪识别功能,GPT-4o还具有实时视觉功能,ChatGPT可以变身真实的老师,通过手机摄像头帮助你实时解题。甚至它还能通过前置摄像头观察用户的表情,分析情绪。
GPT-4o还可帮助充当盲人的“第三只眼”,通过GPT-4o模型实时视觉与语音能力,决策辅助能力等,使得盲人和视力受限用户能够通过语音助手的帮助,实时了解周围的环境,帮助用户做出决策,如识别物品、导航指引等。
与传统的AI相比,GPT-4o看起来像是一个朋友,可以更自然亲切的与用户进行交流,它所提供的“陪伴式情绪价值”将AI虚拟陪伴赛道推向了新的维度。于是,针对同一个问题我们也将GPT-4(左)和GPT-4o(右)进行了对比测试,明显看来GPT-4o提供更富有情绪化。
Sam Altman在blog上发文称:“新的语音和视频模式是我用过的最好的电脑界面。这感觉就像电影里的AI,这让我有些惊讶。达到人类反应时间和表达能力是一个很大的变化。”
大家最关心的是什么时候可以在线体验GPT-4o。现在,进入ChatGPT页面,ChatGPT Plus和Team用户可以抢先体验「最新、最先进的模型」GPT-4o。在未来几周内,GPT-4o将分阶段继承在ChatGPT 在内的OpenAI 各个产品中,并免费提供给所有用户使用。