昨晚OpenAI直播发布了春季更新,推出了GPT-4o模型。这个模型是继gpt-4-turbo之后官方定义的新旗舰模型,可以实时对音频、视觉和文本进行推理。
它真的让人觉得,AGI又更近一步了!!
GPT-4o介绍
GPT-4o(“o”代表“omni”,意为“全能的”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
真正的多模态大模型
在 GPT-4o 之前,ChatGPT 对话也是支持语音模式的。原来的语音模式是由三个独立模型组成的管道:
-
一个简单模型将音频转录为文本
-
GPT-3.5 或 GPT-4 接收文本并输出文本
-
简单模型将该文本转换回音频。
这个过程意味着在第二个步骤的智能模型交互的时候,已经丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
所以OpenAI通过GPT-4o模型,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。不只是一个多模态的输入,还是一个能处理多模态的大脑!这种实现方式也注定GPT-4o拥有更优秀的视觉和音频理解。
更快的响应速度
之前的语音模式,GPT-3.5的平均延迟为 2.8 秒 , GPT-4的平均延迟为 5.4 秒 。
而GPT-4o响应音频输入的平均时间为 320 毫秒,有时甚至达到 232 毫秒,已经接近人类在谈话中的响应时间了。
更高的性价比
GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,同时 API 的速度也更快,成本降低了近 50%。
中文token计数减少 1.4 倍。例如以下这段文字的token从原先的34个减少到24个。
你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
GPT-4o交互演示
以下是官方提供的GPT-4o人机交互演示视频
-
流畅的对话体验
-
实时视频画面理解能力
-
接近真人的情绪表达
你看完是不是也觉得跟一个真人在视频通话没有什么区别😧。
gpt-4o人机交互演示
在图文能力上,GPT-4o也变得更加优秀
官方功能开放情况
-
目前GPT-4o已经灰度对部分ChatGPT普通用户免费开放,限制是10次/3小时;
-
对所有的ChatGPT Plus用户开放,限制是50次/3小时。未来几周内,将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版(需要购买Plus的可私信);
-
已开放API 中访问 GPT-4o 作为文本和视觉模型。
智能文本接入进度
目前API已经支持gpt-4o模型的调用,但是由于官方API能力还没完全开放,所以暂时还不支持多模态输入。后续会优先基于Plus的逆向实现全功能支持,敬请关注!
AGI还有多远
AGI,即人工通用智能(Artificial General Intelligence),是指一种具有广泛认知能力的人工智能系统,这种能力类似于人类的智能。与目前广泛使用的专用或窄域人工智能(AI)不同,AGI可以在多种非专门化的任务中理解、学习和应用知识,理论上能够像人类一样进行推理、解决问题、理解复杂的概念、计划、学习和使用语言。
GPT-4o 是OpenAI第一个真正的能够处理多元信息的大模型,它的信息输入和信息处理机制都更加接近人类。如果真的能够将这些数据完整地处理完,那AI所理解的这个世界,还有认知,应该是和人类趋同的,也就是可以实现真正的AGI了,甚至超过人类。
音视频与文本数据之间一个显著的区别是它们在信息密度上的差异。例如,1分钟长的视频,即使是在标准的压缩格式下,其数据大小也可能是几十到几百兆字节(MB);相比之下,1分钟的纯文本(如会议记录或对话),即使包含详尽的信息达到1000个汉字,其数据大小也只有3千字节(KB)。更多的信息处理意味着更复杂的逻辑能力和处理能力,换成大模型就是更多参数的模型和更多的算力。
人类大脑的神经元数量级是140亿~160亿,目前GPT4模型的参数个数是1750亿,所以可能GPT4的逻辑能力已经可以达到人脑的程度了。至于算力,就像从一年前使用GPT4的龟速吐字,到现在已经和正常人说话般流利一样,根据新旧摩尔定律,算力早晚会有的,或者说现在集中算力造就几个AGI又有什么问题呢?
在此背景下,OpenAI推出的GPT-4o模型确实让我们看到了多模态学习在模仿人类的信息处理方式上的巨大潜力。它不仅仅是技术的一次飞跃,更是对未来AGI实现路径的一种探索。
在OpenAI官网的介绍中写着,他们的使命是
“确保AGI造福全人类”
然后下面还有一句话是:
“随着我们的系统越来越接近 AGI,我们对模型的创建和部署变得越来越谨慎。”
我们也在这个GPT-4o的介绍页面上看到,OpenAI对于新模型安全性做出的努力和说明。
我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名外部专家进行了广泛的外部团队合作,以识别新添加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。
OpenAI
但是,大语言模型本身就是一个黑盒,人类可以把它制造出来,但是之后它在1750亿个参数的一次次输入之后学习到了什么,是否一次次简单的学习之后产生了质变,或者所谓独立的思想,这个无从知晓。
人类对于未知总是充满好奇和恐惧👽
愿AGI真正到来的那一天,人类已经做好了准备。