文章目录
- 一、大模型一些概念介绍
- 二、市面上大模型对比
- 三、大模型使用安全选型
- 四、使用大模型的方式(一问一答、Agent+ Function Calling、RAG、Fine-tuning
- 五、大模型使用路线
- 九、补充说明
- 1)注意力机制讲解
一、大模型一些概念介绍
-
1)产品和大模型的区别(产品通过调用大模型来具备的能力)
-
2)AGI定义
概念:一切问题可以用AI解决 -
3)大模型通俗原理
根据上文,猜测下一个词
-
4)大模型测试代码
from openai import OpenAI
from dotenv import load_dotenv,find_dotenv
_ = load_dotenv(find_dotenv())
client = OpenAI()
prompt = "今天我很"
# prompt = "下班了,今天我很"
# prompt = "放学了,今天我很"
# prompt = "AGI 实现了,今天我很"
response = client.completions.create(
model = "gpt-3.5-turbo-instruct",
propt = prompt,
max_tokens = 512,
stream = True
)
for chunk in response:
print(chunk.choices[0].text,end='')
二、市面上大模型对比
三、大模型使用安全选型
四、使用大模型的方式(一问一答、Agent+ Function Calling、RAG、Fine-tuning
)
①一问一答
②Agent+ Function Calling
③RAG
④Fine-tuning
努力记住考试内容,长期记住,活学活用(在基础大模型之上加一层微调,该百年模型的权重)
五、大模型使用路线
1)是否要补充知识?
是—使用RAG
2)是否要对接其他系统
是—Function Calling
3)值得尝试微调?
是—用旧数据做fine-tune,有几大好处
①提高大模型的稳定性
②用户量大,降低推理的成本
③提高大模型生成速度
九、补充说明
1)注意力机制讲解
-
文本举例讲解
-
有没有注意力机制的区别图
①RNN会有一个隐藏状态,是AI用来理解一个中文词义的作用,可以看到JE和SUIS通过神经网络变成了一个向量
- 注意力网络的实现
注意力网络做的事:
①每个同学h(x)都听一遍
②同时还要找出其重点
非注意网络做的事:
①线性传播一个人只能传递给下一个人 - 注意力网络的方式
上下文的向量:
c2 = a21h1+a22h2+a23h3
①x(数字)是输入的语言,通过RNN神经网络变成一个状态h1,
②α是输入的加权平均(attention weight)
③c是每一个词权重的重点