MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略
导读:2024年5月13日,OpenAI重磅发布新旗舰模型GPT-4o,这是一个全新的旗舰模型,可以实时跨越音频、视觉和文本进行推理。
背景痛点:在推出GPT-4o之前,使用语音模式与ChatGPT交流的延迟较长,无法直接观察语调、多个说话者或背景噪音,且无法输出笑声、歌唱或表达情感。
解决方案:通过训练一个全新的端到端模型,GPT-4o可以跨越文本、视觉和音频的多模态,将所有输入和输出都由同一个神经网络处理,从而提高了对多模态数据的理解和处理能力。
核心特点:GPT-4o接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合输出。它在语音输入方面的响应速度为232毫秒,平均为320毫秒,与人类对话的响应时间相似。
优势:GPT-4o在文本、推理和编码智能方面表现出与GPT-4 Turbo相当的性能水平,同时在多语言、音频和视觉能力方面创下新的高水平。
安全性和限制:GPT-4o在设计上跨越多种模态,并通过过滤训练数据和后期训练调整模型行为等技术来确保安全性。对于新添加的模态,如音频,GPT-4o认识到存在各种新的风险,并采取了相应的安全干预措施。
总体而言,GPT-4o代表了深度学习在实际可用性方面的最新进展,提供了更加灵活、高效和安全的多模态智能解决方案。
目录
GPT-4o的简介
0、GPT-4o 2.8k及其特点:高智能/2倍速/视觉改进/128K的大窗口
1、模型能力
2、能力探索
视觉叙事 - 机器人创作障碍
视觉叙事 - 邮递员萨莉
诗意排版与迭代编辑 1
讲座摘要
3、模型评估
3.1、基准测试
Text Evaluation文本评估
Audio ASR performance音频自动语音识别性能
Audio translation performance音频翻译性能
M3Exam Zero-Shot Results M3考试零-shot结果
Vision understanding evals视觉理解评估
3.2、语言分词
4、模型安全和局限性:过滤训练数据、调整模型行为、红队测试、不断改进安全干预措施
5、模型可用性
GPT-4o的安装和使用方法
T1、官网在线测试
T2、采用API访问GPT-4o
GPT-4o的案例应用
GPT-4o的简介
2024年5月13日,OpenAI重磅发布新旗舰模型GPT-4o,它可以实时跨越音频、视觉和文本进行推理。GPT-4o(“o”代表“omni—全能”)是迈向更加自然的人机交互的一步——它可以接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的反应时间相似。在英语和代码的文本方面,它与GPT-4 Turbo的性能相匹配,对非英语语言的文本有显著改进,同时在API方面更快速、价格降低50%。相比现有模型,GPT-4o在视觉和音频理解方面表现特别优异。
官网地址:https://openai.com/index/hello-gpt-4o/
官网视频:https://vimeo.com/945586717
0、GPT-4o 2.8k及其特点:高智能/2倍速/视觉改进/128K的大窗口
今天,我们宣布推出我们的新旗舰模型——GPT-4o 2.8k,它可以实时跨越音频、视觉和文本进行推理。我们很高兴地分享,它现在作为一个文本和视觉模型在Chat Completions API 1.7k、Assistants API 552和Batch API 312中可用!它包括:
高智能:GPT-4 Turbo级别的文本、推理和编码智能表现,并在多语言、音频和视觉能力方面创下新的高水平。您可以在我们的开源simple-evals GitHub仓库中找到详细的评估结果 393。
2倍速度:GPT-4o在生成标记方面比GPT-4 Turbo快2倍。
价格降低50% :GPT-4o比GPT-4 Turbo便宜50%,无论是输入标记(每百万5美元)还是输出标记(每百万15美元)。
5倍更高的速率限制:GPT-4o的速率限制将是GPT-4 Turbo的5倍,最高可达每分钟1000万标记。(我们将在未来几周逐步提高开发者的使用限制至这个水平。)
视觉改进:GPT-4o在大多数任务中具有改进的视觉能力。
改进的非英语语言能力:GPT-4o在非英语语言方面具有改进的能力,并使用了一种新的标记器,比GPT-4 Turbo更有效地标记非英语文本。
GPT-4o有一个128K的上下文窗口,并且截止日期为2023年10月。
最后,就模态而言:
>> API中的GPT-4o支持通过视觉能力理解视频(无音频)。具体来说,视频需要转换为帧(每秒2-4帧,可以通过均匀采样或通过关键帧选择算法)输入到模型中。立即查看GPT-4o入门手册 1.3k,了解如何使用视觉功能输入视频内容。
>> API中的GPT-4o目前还不支持音频。我们希望在未来几周将这种模态带给一组受信任的测试者。
>> API中的GPT-4o目前还不支持生成图像。为此,我们仍然推荐使用DALL-E 3 API。
>> 我们建议所有使用GPT-4或GPT-4 Turbo的人考虑切换到GPT-4o!要开始使用,请查看我们的API文档 1.3k,或在Playground 676中尝试(现在支持视觉,并可以跨模型比较输出!)
1、模型能力
在GPT-4o推出之前,您可以使用语音模式与ChatGPT进行交流,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接受文本并输出文本,第三个简单的模型将文本转换回音频。这个过程意味着智能的主要来源GPT-4会丢失很多信息——它不能直接观察到语调、多个说话者或背景噪音,并且无法输出笑声、歌唱或表达情感。
通过GPT-4o,我们训练了一个全新的端到端模型,跨越文本、视觉和音频,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模态的模型,我们仍然只是初步探索模型的能力和局限性。
2、能力探索
Visual Narratives - Robot Writer's Block Visual narratives - Sally the mailwoman Poster creation for the movie 'Detective' Character design - Geary the robot Poetic typography with iterative editing 1 Poetic typography with iterative editing 2 Commemorative coin design for GPT-4o Photo to caricature Text to font 3Dobject synthesis Brand placement - logo on coaster Poetic typography Multiline rendering - robot texting Meeting notes with multiple speakers Lecture summarization Variable binding - cube stacking Concrete poetry | 视觉叙事 - 机器人创作障碍 视觉叙事 - 邮递员萨莉 电影《侦探》的海报设计 角色设计 - 机器人盖瑞 诗意排版与迭代编辑 1 诗意排版与迭代编辑 2 GPT-4o纪念币设计 照片到漫画的转换 文本到字体的转换 3D物体合成 品牌放置 - 杯垫上的徽标 诗意排版 多行渲染 - 机器人发短信 多人演讲记录 讲座摘要 变量绑定 - 堆叠立方体 具象诗歌 |
视觉叙事 - 机器人创作障碍
视觉叙事 - 邮递员萨莉
诗意排版与迭代编辑 1
讲座摘要
3、模型评估
根据传统基准测试,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力上设定了新的最高水平。
3.1、基准测试
Text Evaluation文本评估
改进的推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了新的高分,达到了 88.7%。所有这些评估都是使用我们的新的简单评估库收集的。
Audio ASR performance音频自动语音识别性能
音频自动语音识别性能 - GPT-4o 在所有语言上都显著提高了对语音识别的性能,特别是对于资源较少的语言。
Audio translation performance音频翻译性能
音频翻译性能 - GPT-4o 在语音翻译方面取得了新的技术水平,并在MLS基准上优于Whisper-v3。
M3Exam Zero-Shot Results M3考试零-shot结果
M3考试 - M3考试基准既是一个多语言评估,又是一个视觉评估,包括其他国家标准化测试中的多项选择题,有时包括...
Vision understanding evals视觉理解评估
视觉理解评估 - GPT-4o 在视觉感知基准上取得了最先进的性能。所有视觉评估都是 0-shot 的,包括 MMMU、MathVista 和 ChartQA。
3.2、语言分词
这20种语言被选为新分词器在不同语言家族中的压缩的代表。
Gujarati 4.4x fewer tokens (from 145 to 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3.5x fewer tokens (from 159 to 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3.3x fewer tokens (from 116 to 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2.9x fewer tokens (from 96 to 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2.9x fewer tokens (from 90 to 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2.5x fewer tokens (from 82 to 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabic 2.0x fewer tokens (from 53 to 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persian 1.9x fewer tokens (from 61 to 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russian 1.7x fewer tokens (from 39 to 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Korean 1.7x fewer tokens (from 45 to 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamese 1.5x fewer tokens (from 46 to 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Chinese 1.4x fewer tokens (from 34 to 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japanese 1.4x fewer tokens (from 37 to 26) | こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして |
Turkish 1.3x fewer tokens (from 39 to 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italian 1.2x fewer tokens (from 34 to 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti! |
German 1.2x fewer tokens (from 34 to 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spanish 1.1x fewer tokens (from 29 to 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portuguese 1.1x fewer tokens (from 30 to 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
French 1.1x fewer tokens (from 31 to 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
English 1.1x fewer tokens (from 27 to 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
4、模型安全和局限性:过滤训练数据、调整模型行为、红队测试、不断改进安全干预措施
GPT-4o通过跨越模态具有内置的安全性,包括过滤训练数据和调整模型行为等技术;评估结果显示其在网络安全、CBRN、说服和模型自主性等方面处于中风险以下,并经过广泛的外部红队测试来识别新风险,同时我们也将不断改进安全干预措施以提高与GPT-4o交互的安全性。
GPT-4o通过设计跨越模态具有内置的安全性,通过诸如过滤训练数据和通过训练后调整模型行为等技术。我们还创建了新的安全系统,以提供对语音输出的防范措施。
我们根据我们的准备框架和我们的自愿承诺评估了GPT-4o。我们对网络安全、化学、生物、辐射和核爆炸(CBRN)、说服和模型自主性的评估显示,GPT-4o在这些类别中没有超过中风险。这项评估涉及在模型训练过程中运行一套自动化和人工评估。我们测试了模型经过安全缓解和安全缓解后的版本,使用自定义微调和提示,以更好地引出模型的能力。
GPT-4o还经历了与70多名外部专家进行的广泛外部红队测试,这些专家涉及社会心理学、偏见和公平性以及错误信息等领域,以识别新添加的模态引入或放大的风险。我们利用这些经验来建立我们的安全干预措施,以提高与GPT-4o交互的安全性。我们将继续在发现新风险时进行风险缓解。
我们意识到GPT-4o的音频模态提出了各种新风险。今天,我们将公开发布文本和图像输入以及文本输出。在未来几周和月份,我们将致力于开发技术基础设施、通过训练后的可用性和安全性来发布其他模态。例如,在推出时,音频输出将仅限于一些预设的语音,并遵守我们现有的安全政策。我们将在即将推出的系统卡中分享更多关于GPT-4o各种模态的细节。
通过与模型的测试和迭代,我们观察到模型在所有模态上存在一些限制,其中一些限制如下所示。
我们希望得到反馈,以帮助确定GPT-4 Turbo仍然优于GPT-4o的任务,以便我们继续改进模型。
5、模型可用性
GPT-4o是我们在推动深度学习边界的最新一步,这一次是朝着实际可用性的方向。在过去两年中,我们在整个堆栈的每一层都投入了大量的工作来提高效率。作为这项研究的首个成果,我们能够更广泛地提供一个类似于GPT-4级别的模型。GPT-4o的能力将通过迭代方式推出(从今天开始扩展红队访问)。
GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们将在免费版本中提供GPT-4o,并提供最多5倍的消息限制给Plus用户。在未来几周内,我们将在ChatGPT Plus中推出带有GPT-4o的语音模式的新版本(alpha版)。
开发者现在还可以通过API访问GPT-4o,作为文本和视觉模型。相比GPT-4 Turbo,GPT-4o的速度提高了2倍,价格降低了一半,速率限制提高了5倍。我们计划在未来几周内向API的一小部分信任合作伙伴推出支持GPT-4o的新音频和视频功能。
GPT-4o的安装和使用方法
持续更新中……
GPT-4o的文本和图像功能已经开始在ChatGPT中推出,用户可以在免费版中使用,Plus用户可以享受高达5倍的消息限制。开发者也可以通过API访问GPT-4o,提供了文本和视觉模型,性能比GPT-4 Turbo更快、价格更低、速率限制更高。
T1、官网在线测试
Chat地址:https://chat.openai.com/
playground地址:https://platform.openai.com/playground/chat?mode=chat&model=gpt-4o&models=gpt-3.5-turbo-16k
T2、采用API访问GPT-4o
API地址:https://platform.openai.com/docs/models/gpt-4o
from openai import OpenAI
client = OpenAI()
completion = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "You are a poetic assistant, skilled in explaining complex programming concepts with creative flair."},
{"role": "user", "content": "Compose a poem that explains the concept of recursion in programming."}
]
)
print(completion.choices[0].message)
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who won the world series in 2020?"},
{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
{"role": "user", "content": "Where was it played?"}
]
)
GPT-4o的案例应用
持续更新中……
GPT-4o可以应用于视觉叙事、角色设计、排版艺术、三维物体合成等多种场景,提供了更加丰富和多样化的功能。