OpenAI GPT-4o：开启人工智能交互新纪元

引言

在人工智能领域，OpenAI一直是创新的代名词。2024年5月14日，OpenAI再次以GPT-4o模型震撼了科技界，这款全新的旗舰生成模型不仅免费向公众开放，更以其革命性的多模态交互能力，引领我们进入了一个全新的科幻时代。

春季发布会上（详情见：https://openai.com/index/spring-update/ ）OpenAI 的首席技术官 Mira Murati表示

以后 OpenAI 做产品就是要免费优先，为的就是让更多的人能使用。
OpenAI 此次发布了桌面版本的程序和更新后的 UI，其使用起来更简单，也更自然。
GPT-4 之后，新版本的大模型来了，名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能，包括免费用户。

GPT-4o模型的核心特性

GPT-4o（详情见：https://openai.com/index/hello-gpt-4o/），o即Omnimodel（全能模型），是OpenAI在GPT-4之后的又一次飞跃。它集成了文本、语音、图像三种模态的理解力，以极为自然的交互方式为每个人带来了GPT-4级别的智能，包括免费用户。 GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。在 GPT-4o 发布之前，体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

以下是GPT-4o模型的一些核心特性：

多模态输入输出：GPT-4o能够接收文本、音频和图像的任意组合作为输入，并实时生成相应的输出，这标志着未来交互方式的重大转变。并且 OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。
实时语音对话：GPT-4o的实时语音对话能力，允许用户随时打断AI的话，并得到快速响应，这种交互体验与人类交流更为接近。
情感理解与表达：新模型不仅能够理解人类的情感，还能表现出各种感情，使得交互更加人性化。
视觉和音频理解：GPT-4o在视觉和音频理解方面表现出色，能够快速响应音频输入，与人类反应时间相似。
代码交互能力：GPT-4o能够解释代码的功能，甚至以一句话的方式回应所有有关代码输出的问题。