引言
在人工智能领域,OpenAI一直是创新的代名词。2024年5月14日,OpenAI再次以GPT-4o模型震撼了科技界,这款全新的旗舰生成模型不仅免费向公众开放,更以其革命性的多模态交互能力,引领我们进入了一个全新的科幻时代。
春季发布会上(详情见:https://openai.com/index/spring-update/ )OpenAI 的首席技术官 Mira Murati表示
- 以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
- OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
- GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。
GPT-4o模型的核心特性
GPT-4o(详情见:https://openai.com/index/hello-gpt-4o/) ,o即Omnimodel(全能模型),是OpenAI在GPT-4之后的又一次飞跃。它集成了文本、语音、图像三种模态的理解力,以极为自然的交互方式为每个人带来了GPT-4级别的智能,包括免费用户。 GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
以下是GPT-4o模型的一些核心特性:
多模态输入输出:GPT-4o能够接收文本、音频和图像的任意组合作为输入,并实时生成相应的输出,这标志着未来交互方式的重大转变。并且 OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
实时语音对话:GPT-4o的实时语音对话能力,允许用户随时打断AI的话,并得到快速响应,这种交互体验与人类交流更为接近。
情感理解与表达:新模型不仅能够理解人类的情感,还能表现出各种感情,使得交互更加人性化。
视觉和音频理解:GPT-4o在视觉和音频理解方面表现出色,能够快速响应音频输入,与人类反应时间相似。
代码交互能力:GPT-4o能够解释代码的功能,甚至以一句话的方式回应所有有关代码输出的问题。
GPT-4o的能力探索
- 理解和生成图像 你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:
GPT-4o的性能评估
OpenAI技术团队对GPT-4o进行了严格的性能评估。在多项基准测试中,GPT-4o在文本、推理和编码智能方面实现了与GPT-4 Turbo相匹配的性能,同时在多语言、音频和视觉功能上实现了新高。
- 文本评价
- 音频ASR性能
- 情感理解与表达
- 视觉和音频理解
- 代码交互能力
用户体验的革新
OpenAI不仅关注模型的技术性能,更致力于提升用户体验。GPT-4o的发布,意味着ChatGPT的用户将免费获得更多高级功能,包括但不限于:
- 体验GPT-4级别的智能
- 分析数据并创建图表
- 与拍摄的照片进行对话
- 上传文件以获取总结、写作或分析方面的帮助
- 发现并使用GPTs和GPT应用商店
安全性与未来展望
OpenAI在GPT-4o的安全性上下了大力气,通过过滤训练数据和训练后细化模型行为等技术,内置了安全性。同时,OpenAI还创建了新的安全系统,为语音输出提供防护。
随着GPT-4o的发布,OpenAI CEO山姆・奥特曼提出了“全民免费计算”的概念,预示着未来所有人都可以免费获得GPT的算力。这不仅是对谷歌等科技巨头的挑战,更是对整个人工智能行业的一次巨大推动。
结语
OpenAI的GPT-4o模型,无疑将人工智能交互推向了一个新的高度。它不仅提供了强大的功能,更以其免费、易用的特性,让每个人都能享受到人工智能带来的便利。随着技术的不断进步,我们有理由相信,GPT-4o只是一个开始,未来人工智能将更加深入地融入我们的生活和工作,开启一个全新的时代。
本文由博客一文多发平台 OpenWrite 发布!