新旗舰模型GPT-4o
GPT-4o 是openAI新flagship旗舰模型,可以通过音频、视觉、文本推理reason,也能组合输出text, audio, and image。
接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。
速度快 2 倍,价格减半,速率限制高出 5 倍。GPT-4o 在视觉和音频理解方面尤其出色。
自然人机交互,听懂背景噪音、笑声、歌声或表达情感,也能输出这些。
之前语音交互是语音转文本,文本生成文本,文本生成语音输出。会丢失大量信息。GPT-4o,在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型,所以我们仍然只是在探索该模型可以做什么及其局限性的表面。
能力探索
- 视觉叙事 - Robot Writer’s Block
- 视觉叙事 - 邮递员莎莉
- 电影《侦探》海报创作
- 角色设计 - Geary the robot
- 诗意的排版与迭代编辑 1
- 诗意排版与迭代编辑 2
- GPT-4o纪念币设计
- 照片到漫画
- 文本到字体
- 3D 对象合成
- 品牌展示位置 - 杯垫上的徽标
- 诗意的排版
- 多行渲染 - 机器人短信
- 与多位发言人的会议记录
- 讲座总结
- 变量绑定 - 多维数据集堆叠
- 具体诗歌
模型评估
GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
token更少
模型安全性和局限性
新的安全护栏