上周GPT大更新,不仅开放了GPT-4-Turbo、GPT-4-Vision等模型api,还发布了GPTs,使得用户能够根据需要定义自己的GPT应用,OpenAI在这波AI革命上又一次震撼世人。
笔者也在上周拿到了几个新模型的api资格,一直盼着可以测试年初就官宣的多模态功能,所以迫不及待的就测了一波。
DALL.E 3绘图功能测试
from openai import OpenAI
client = OpenAI(api_key=api_key)
response = client.images.generate(
model="dall-e-3",
prompt="A spaceship flying through the universe",
size="1024x1024",
quality="standard",
n=1,
response_format='b64_json'
)
image_b64 = response.data[0].b64_json
generated_image = base64_to_image(image_b64)
plt.imshow(generated_image)
plt.axis("off")
plt.show()
可以看到,DALL.E 3相比于此前的DALL.E 2的绘图质量还是要高出许多的,按照OpenAI官方定价,生成一张标准质量的1024*1024大小的图像,需要两毛九分钱,还是有点小贵的。
GPT-Turbo-4V测试
具有视觉功能的 GPT-4 (GPT-4V) 使用户能够使得 GPT-4 分析用户提供的输入图像。其实按道理这是当初GPT-4发布时候就官宣了的多模态功能,但到现在才开放给咱们用户使用。
作为一名爬行动物爱好者,我们先准备一张竹叶青的图像:
然后调用GPT-4V多模态模型对其进行分析:
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {api_key}"
}
payload = {
"model": "gpt-4-vision-preview",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "图片里有什么?"
},
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{base64_image}"
}
}
]
}
],
"max_tokens": 300
}
response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)
print(response.json()['choices'][0]['message']['content'])
可以看到输出为:
图片中可以看到是一棵树的绿色枝叶,枝叶间盘踞着一条绿色的蛇,它的身体呈现出弯曲蜿蜒的姿态,与树叶相似的颜色使它具有良好的伪装效果。这种蛇通常依靠其保护色与环境融为一体,以躲避捕食者同时也有助于它们捕捉猎物。
GPT-4-Turbo测试
GPT-4-Turbo笔者直接在部署的GPT应用上直接使用了,我让其写一份《深度学习图像分割》的书稿提纲,写的还是蛮系统的。
个人GPT测试地址(需要个人api):
https://www.louwillgpt.com/
另外我在我们【GPT实验室】的知识星球也部署了上述模型,感兴趣的读者可以私我加入。