ChatGPT API接口使用+fine tune微调+prompt介绍

目录

  • 1 接口调用
    • 1.1 生成key
    • 1.2 接口功能
      • 1.2.1 图片生成 (image generation)
      • 1.2.2 对话(chat)
      • 1.2.3 中文纠错 (Chinese Spelling Correct)
      • 1.2.4 关键词提取 (keyword extract)
      • 1.2.5 抽取文本向量 (Embedding)
      • 1.2.6 微调 (fine tune)
  • 2 如何写好prompt
    • 2.1分类任务
    • 2.2 归纳总结
    • 3.3 翻译
    • 2.4 API接口多样性控制
  • 3 实用资料

1 接口调用

我们可以用OpenAI 提供的API接口实现很多NLP的任务,还可以支持生成图像,提取embedding以及finetune的功能。接下来我们来看下具体怎么调用接口。

1.1 生成key

首先需要从网址:https://platform.openai.com/account/api-keys,生成我们的API key
在这里插入图片描述
获得key后我们就可以调用API接口了。目前OpenAI 的 API 服务提供了一个免费的 API 计算单元 (ACU) 的额度,该额度可以用于测试和试用 OpenAI 提供的服务。免费的额度用完后,需要购买额外的 ACU 才能继续使用 OpenAI 的 API 服务。我们可以从Usage和Billing:https://platform.openai.com/account/usage 里去查看我们的免费额度以及进行额度充值:
在这里插入图片描述

1.2 接口功能

首先我们需要安装openai

pip install openai

安装好openai以及获得API key后,我们就可以调用接口了,首先我们来看下openai能够提供的模型有什么:

import openai
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

models = openai.Model.list()

for model in models['data']:
    print(model['id'])

我们可以看出,目前提供的模型有如下:
在这里插入图片描述
接下来大概介绍一下我们应该怎样去调用接口,获取我们想要的结果。

1.2.1 图片生成 (image generation)

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

def image_genaration(prompt):
    response = openai.Image.create(
    prompt=prompt,
    n=1,
    size="1024x1024"
    )
    image_url = response['data'][0]['url']
    return image_url

if __name__=='__main__':
    prompt='a delicious dessert'
    result = image_genaration(prompt)
    print(result)

prompt=‘a delicious dessert’, 其中返回url地址,我们将地址复制到浏览器中,打开看到如下图:
在这里插入图片描述
prompt=‘母亲在厨房忙碌着’,OpenAI返回的效果图如下:
在这里插入图片描述
人物画像细节生成还不够逼真。来试一试中国的古诗词效果,
prompt=‘踏花归去马蹄香’

马蹄上应该画出一些蝴蝶🦋来表达马蹄的花香味啊,不太满意~😞

1.2.2 对话(chat)

api接口调用代码如下所示:

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"
def chat(prompt):

    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    prompt='人口最多的国家'
    result = chat(prompt)
    print(result)

结果如下:
在这里插入图片描述

1.2.3 中文纠错 (Chinese Spelling Correct)

我们可以通过合理的写prompt,基于问答形式,让gpt-3.5做NLP任务。比如对中文纠错,我们可以这样写prompt,让chagpt能够做纠错NLP任务。如下所示:

def correct():
    prompt="改正错词输出正确句子:\n\n我在京东电商平台买了苹果耳几和华为体脂称"  #建议prompt: 改正错词输出正确句子:\n\n input_sentence
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = correct()
    print(result)

结果如下:
在这里插入图片描述

1.2.4 关键词提取 (keyword extract)

def keyword():
    prompt="对下面内容识别2个关键词,每个词字数不超过3个字:\n\n齐选汽车挂件车内挂饰车载后视镜吊坠高档实心黄铜玉石出入平安保男女 红流苏-玉髓平安扣"  #建议prompt: 对下面内容识别n个关键词,每个词字数不超过m个字:\n\n input data
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = keyword()
    print(result)

在这里插入图片描述
对于不同的prompt,输出的结果差异也较大。所以对于具体的任务场景,我们需要尝试不同的prompt, 根据结果的反馈,不断的调整和优化prompt,从而得到更加准确的结果

1.2.5 抽取文本向量 (Embedding)

def embedding():
    content = '苹果手机'
    response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=content
)
    answer = response.data[0].embedding
    return answer

if __name__=='__main__':
    result = embedding()
    print(len(result))
    print(result)

得到结果如下:
在这里插入图片描述
是一个1536维度的向量,我们可以基于文本的向量去做很多任务,比如计算两个向量的余弦值,计算相似性分值等。

1.2.6 微调 (fine tune)

openAI提供了接口可以用我们自己的数据进行fine tune,得到适应我们自己业务场景的新模型。假如我们需要训练一个适应我们自己领域知识的聊天机器人,我们可以按照下面流程来做fine tune。

  • 数据准备

我们可以先把数据转成csv格式,需提供prompt列和对应的completion列,其中prompt相当于问题,completion就是对应的答案,如下是我们要用来fine tune模型的result.csv训练样本内容显示:
在这里插入图片描述
然后我们可以用openAI提供的数据处理工具对数据转成json格式的文件

openai tools fine_tunes.prepare_data -f result.csv

执行完后,我们会得到一个对应的json文件:result_prepared.jsonl

  • 模型微调训练
    接下来我们就可以用已有的模型 (ada, babbage, curie, davinci) 进行fine tune,官方给出的具体可以用来做微调的模型主要如下:
    在这里插入图片描述
    首先需要指定我们自己的API key:
export OPENAI_API_KEY="sk-Wljk3BVhN0VieGCwAzEX*********"

然后开始训练:

openai api fine_tunes.create -t result_prepared.jsonl -m ada

在这里用我们自己的数据result_prepared.jsonl,基于base model: ada模型提交fine tune任务。提交后会返回给我们一个JOB ID,通过这个job id我们可以跟进模型在远程服务器训练情况:

 openai api fine_tunes.follow -i ft-sWKDNnTmUyOGEdpvbAOvEaZt

我们可以看到结果如下:
在这里插入图片描述
可以看到我们的模型训练好了模型名称叫做:ada:ft-personal-2023-03-27-03-24-09,然后我们就可以试用我们训练好的模型看效果了,测试如下:

openai api completions.create -m ada:ft-personal-2023-03-27-03-24-09 -p <YOUR_PROMPT>

其中<YOUR_PROMPT>写入我们要测试的问题就好。

现在我们可以去远程服务器上查看下我们fine tune好的模型是否已经有了:

models = openai.Model.list()

发现有了刚刚fine tune的模型:
在这里插入图片描述
对于分类,实体识别等任务,OPNAI官网也提供了如何做处理数据,让模型做fine tune,详情可以参考官网https://platform.openai.com/docs/introduction/overview

2 如何写好prompt

prompt如何表达,对于chatgpt返回的答案会差异很大,通过prompt正确的表达问题,chatgpt才会返回更合适的结果。通过自己这些天的尝试以及官网给的提示,感受就是在写prompt时候,可以通过说明,例子,限制条件,修饰词等具体表达问题,这样chatgpt会给出更加精准的答案。接下来,我们对几种常见的任务,prompt应用如何写。

2.1分类任务

我们可以对prompt这么构造:
判断content属于A,B,C,D哪一种分类
content: detail
分类:

对应的查询结果如下:
在这里插入图片描述

2.2 归纳总结

提供了非常强大能力,能够基于学到的广泛知识,给出问题解决方案,合理的建议,实施步骤,商业计划,人物描写等等。所以我们可以合理写prompt,更有意思的答案。
在这里插入图片描述

哈哈,看起来不够大胆,于是进一步发问
在这里插入图片描述
给出的这些答案果然更加激动人心。

3.3 翻译

我们可以将一种语言翻译成我们大多数其他语言。对于翻译任务,我们只需要写prompt表达我们的意愿就是:
将下面内容翻译成英语,日语,德语
content

在这里插入图片描述

2.4 API接口多样性控制

在调用API接口的时候,我们可以通过设置两个参数=='temperature’和’top_p’来控制生成文本的多样性和可控度==。当temperature较高时,生成的文本会更加随机和多样化,而当temperature较低时,生成的文本会更加保守和可控。top_p参数用于控制生成文本的可控度,它会限制模型生成文本时可以选择的token的数量。具体来说,当top_p越低时,模型只考虑概率分布中累计概率最高的一部分token,而忽略其他低概率的token。这样一来,生成的文本就更加可控,因为只有那些最可能的token才会被考虑。而当top_p越高的时候,生成的文本可能会更加灵活和多样,因为模型会考虑更多的低概率token。每次调用的时候,我们可以设置这两个参数:
在这里插入图片描述

3 实用资料

大模型训练平台:https://github.com/hpcaitech/ColossalAI
相关资料:中文精选资源清单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/12630.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Baumer工业相机堡盟工业相机如何联合BGAPISDK和OpenCVSharp实现图像的拉普拉斯算法增强(C#)

Baumer工业相机堡盟工业相机如何联合BGAPISDK和OpenCVSharp实现图像的拉普拉斯算法增强&#xff08;C#&#xff09; Baumer工业相机Baumer工业相机使用图像算法增加图像的技术背景Baumer工业相机通过BGAPI SDK联合OpenCV使用图像增强算法1.引用合适的类文件2.BGAPI SDK在图像回…

【C++】从string开始了解STL

文章目录 1.初识STL1.什么是STL2.STL的版本3.STL的六大组件 2.string1.string类模板2.string类的构造函数3.string内部数据访问4.string的遍历5.string类的迭代器6.string的Capacity相关接口7.string的修改相关接口8.其他接口 1.初识STL 1.什么是STL STL(standard template l…

openpnp - 顶部相机 - 辅助光(环形灯)的电路原理图

文章目录 openpnp - 顶部相机 - 辅助光(环形灯)的电路原理图概述END openpnp - 顶部相机 - 辅助光(环形灯)的电路原理图 概述 同学帮我做的简易灯板设计不太合理, 发热量极大. 想看看商用的环形灯电路啥样的, 如果有可能, 自己做块灯板, 塞进商用环形灯外壳中. 拆解了一个环形…

从TOP25榜单,看半导体之变

据SIA报告显示&#xff0c;2022年全球半导体销售额创历史新高达到5740亿美元。尽管2022年下半年&#xff0c;半导体市场出现了周期性的低迷&#xff0c;但其全年的销售额相较2021年增长了3.3%。 近日&#xff0c;市调机构Gartner发布了全球以及中国大陆TOP25名半导体厂商的排名…

【软考数据库】第二章 程序语言基础知识

目录 2.1 程序设计语言的基本概念2.2 程序设计语言的基本成分2.3 编译程序基本原理 前言&#xff1a; 笔记来自《文老师软考数据库》教材精讲&#xff0c;精讲视频在b站&#xff0c;某宝都可以找到&#xff0c;个人感觉通俗易懂。 2.1 程序设计语言的基本概念 程序设计语言是…

《3-链表》

链表 引言&#xff1a; 存储数组需要内存空间连续&#xff0c;当我们需要申请一个很大的数组时&#xff0c;系统不一定存在这么大的连续内存空间。 而链表则更加灵活&#xff0c;不需要内存是连续的&#xff0c;只要剩余内存空间大小够用即可 1.定义 &#xff1a; 「链表 Lin…

文本批量翻译-批量翻译文件名

批量将英文翻译成中文的软件 批量将英文翻译成中文的软件的主要用途场景主要是在需要大量翻译英文文本到中文的场景下使用&#xff0c;例如&#xff1a; 商务文件翻译&#xff1a;许多企业需要将其商务文件&#xff0c;如合同、报告、信函等翻译成中文&#xff0c;以便其中文读…

Vulnhub项目:MrRobot

靶机地址&#xff1a;Mr-Robot: 1 ~ VulnHub 渗透过程&#xff1a; 先看描述&#xff0c;有3跟keys在这个靶机中 首先确定靶机ip&#xff0c;对靶机开放的端口进行探测 访问靶机地址&#xff0c;出现了很酷炫的web界面&#xff0c;这个mr.robot,是一个美剧&#xff0c;还是挺…

e-STUDIO2010AC•2520AC安装步骤

注意!在室内室外温差比较大的情况下,设备需要在室内静置240分钟以上才可以进行安装。

智慧园区综合管理平台开发基本功能有哪些?

随着智慧城市建设与信息化发展&#xff0c;园区管理也需要更加智能便捷化&#xff0c;于是智慧园区管理系统开发应运而生。智慧园区综合管理系统就是利用物联网、大数据等技术工具&#xff0c;顺应产业园区升级发展需求&#xff0c;实现园区环境、设备、安全、基础管理、资源服…

TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:1~5

原文&#xff1a;Mobile Deep Learning with TensorFlow Lite, ML Kit and Flutter 协议&#xff1a;CC BY-NC-SA 4.0 译者&#xff1a;飞龙 本文来自【ApacheCN 深度学习 译文集】&#xff0c;采用译后编辑&#xff08;MTPE&#xff09;流程来尽可能提升效率。 不要担心自己的…

vue关于echarts后端返回格式取值方法

在vue中&#xff0c;接口返回如下数据&#xff1a; data: {充电桩: [0, 0, 78], 红外摄像头: [0, 0, 0], 火焰探测器: [0, 1, 0], 烟雾传感器: [0, 1, 1], 限流保护器: [0, 0, 1]}&#xff0c; 其中数组里第一个值应该放在data1&#xff0c;第二个放在data2&#xff0c;第三个…

docker学习

安装 curl -fsSL https://get.docker.com -o get-docker.sh sudo sh get-docker.sh为了防止后面权限有问题&#xff0c;执行下面这个 sudo groupadd docker sudo gpasswd -a $USER docker newgrp docker基本操作 获得镜像 docker pull hello-world运行 docker run hello-w…

蓝桥杯欲伸手CTF?有多远爬多远

注意&#xff1a;网络安全类比赛 或者说 CTF 参赛不会需要任何费用 只有国赛/省赛有可能会收取一定运维费用 其他比赛都不会收费 望周知。 先来看个特离谱的事情 早上起床看到几位师傅的朋友圈一脸懵&#xff0c;再仔细一看&#xff0c;好嘛。。。。。。 先看看探姬的回复 接下…

如何使用ChatGPT在1天内完成毕业论文

如何使用ChatGPT在1天内完成毕业论文 几天前&#xff0c;亲眼见证了到一位同学花了1天时间用ChatGPT完成了他的毕业论文&#xff0c;世道要变&#xff0c;要学会使用黑科技才能混的下去。废话到此结束&#xff0c;下面说明这么用AI生成自己的论文。 使用工具&#xff1a; 1. P…

VMware vSphere 8.0 Update 1 正式版发布 - 企业级工作负载平台

ESXi 8.0 U1 & vCenter Server 8.0 U1 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-vsphere-8-u1/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysin.org 2023-04-18&#xff0c;VMware vSphere 8.0 Update 1 正式…

Excel技能之排名,小函数很强大

你还在熬夜加班搞Excel吗&#xff1f; 你还在用手指&#xff0c;指着电脑屏幕&#xff0c;一行一行核对数据吗&#xff1f; 你还在害怕被笑而不敢问同事吗&#xff1f; 赶紧来学Excel&#xff0c;收藏加关注&#xff0c;偷偷地进步&#xff01;日积月累&#xff0c;必成大器&am…

ADIDAS阿里纳斯励志广告语

系列文章目录 精选优美英文短文1——Dear Basketball&#xff08;亲爱的篮球&#xff09;精选优美英文短文2——Here’s to the Crazy Ones&#xff08;致疯狂的人&#xff09;“我祝你不幸并痛苦”——约翰罗伯茨毕业致辞“亲爱的波特兰——CJ麦科勒姆告别信” Hi, I’m Gilb…

Java阶段二Day05

Java阶段二Day05 文章目录 Java阶段二Day05截至此版本可实现的流程图为V14UserControllerClientHandlerDispatcherServletHttpServletResponseHttpServletRequest V15DispatcherServletHttpServletResponseHttpServletRequest V16HttpServletRequestHttpServletResponse 反射JA…

【Linux网络服务】DNS域名解析服务服务

一、BIND域名服务基础 服务背景 1在日常生活中人们习惯使用域名访问服务器&#xff0c;但机器向互相只认IP地址&#xff0c;域名与IP地址之间是多对一的关系&#xff0c;一个IP址不一定只对应一个域名&#xff0c;且一个完成域名只可以对应一个IP地址&#xff0c;它们之间转换…