ChatGPT入门必知必会

在这里插入图片描述

2023年是真正意义上的AI之年,因为ChatGPT

2007年,iPhone开启了智能手机时代,2023年,我们迎来了人工智能时代,我们正处于历史的大转折点上,这也许是启蒙运动级别的思想和社会转折,工业革命级别的生产和生活转折。继22年12月份从GPT-3到CHAT-GPT之后,stackoverflow 第2次来谈谈ChatGPT,准确地说,是近来学习ChatGPT的心得体会

OpenAI的账号是去年12月份申请的,距今已经快5个月了,18刀确实没有消耗完,然而请求不可用了,因为账号资金过期。由于国内网络和代理的缘故,登陆总是 “Oops”和 “You are being rate limited”。升级Plus账户,即便用了支持外币的卡,也有 “Your card has been declined” 的问题,索性直接白嫖了大学同学的账号,这里对同学表示忠心的感谢,希望他在日不落帝国的博士之路一帆风顺

一些名词解释

ChatGPT相关的有哪些专有名词需要了解呢?下面是我个人的总结:

GPT:

Generative Pre-trained Transformer 中文翻译为:生成式预训练变换器,其基于transformer架构的、经过预训练的、生成性的模型。其发展历史,参考从GPT-3到CHAT-GPT

AGI:

通用人工智能(artificial general intelligence),看到AGI翻译成了通用人工智能,直译AGI应该是人工通用智能,我还特意问了一个ChatGPT这个问题。可以认为是领域内专有名词

现在正在训练的是GPT-5,它被认为肯定可以通过图灵测试,达到通用人工智能的水准。AGI的一个特点是贵!据Morgan Stanley分析,正在训练之中的GPT-5,用了25000块NVIDIA最新的GPU,这种GPU每块价值一万刀

LLM:

大语言模型(Large Language Model),大语言模型是指一类基于深度学习技术的自然语言处理模型,它可以自动学习语言的规则和结构,从而生成文本、回答问题等任务,GPT-3是最出名的大语言模型

多模态:

第一次了解这个概念的时候,还在念书,是快手的一位技术大佬介绍他们的推荐引擎是支持多模态的,这里可以认为文本是一种模态,音频是一种模态,视频是一种模态。ChatGPT-3是你只能给它输入文字,多模态是你可以给它输入图片、声音和视频,它的原理大概是先把一切媒体都转化成语言,再用语言模型处理

涌现:

英文emerge ,当一个系统的复杂到一定程度时,就会发生超越系统元素简单叠加的,自组织的现象,一个蚂蚁很笨,可是蚁群非常的聪明,市场中的每个人都是自由独立的,可是整个市场好像有某种顺序,神经元是简单的,但是大脑却产出了意识…语言模型在参数量级突破了一定阈值(千亿)后,开悟了(就像王阳明龙场驿站开悟了那样),涌现出很多能力,工程师们及业界大佬们也没有弄明白模型涌现出这些能力的内部机制

思维链:

模型涌现新能力的关键机制,叫做思维链(Chain-of-Thought),思维链就是当模型听到一个东西之后,它会噼里啪啦地自说自话,把它知道的有关这个东西的各种事情一个个说出来(每个词都有对应概率,可认为是模型思考的过程),然后根据思维链结果产出最终结果(有点二阶导数的味道了)。只要我们预设好每次模型先思考,在回答问题,她就能运用思维链,也就有了思考能力

CNN

卷积神经网络(Convolutional Neural Network):是一种深度学习算法,CNN可以通过卷积和池化操作,从图像中有效地提取出特征,然后通过全连接层进行分类或回归等任务,主要用于图像和视频处理

RNN

循环神经网络(Recurrent Neural Network),是一种能够处理序列数据的神经网络模型。其结构类似于多个神经网络单元,按照时间序列连接起来的模型。每个时间步,当前输入和上一时刻的输出会一起输入给网络,生成当前时刻的输出

传统的RNN存在“梯度消失”和“梯度爆炸”等问题,导致网络难以训练和优化,可以通过长短时记忆网络(LSTM)和门控循环单元(GRU)来解决

GNN

生成性神经网络(Generative Neural Networks)的特点在于生成二字,生成新的数据样本,如图像、文本、音频。生成性神经网络不仅可以对已有数据进行分类和预测,还可以生成新的数据,类似于人类的创造力。应用在如图像生成、文本生成、音频生成等领域

生成性神经网络的训练方法是用两个具有互补学习目标的网络相互对抗:一个叫生成器,负责生成内容,一个叫判别器,负责判断内容的质量,二者随着训练互相提高

Transformer架构:

Transformer是一种基于自注意力机制(self-attention mechanism)的神经网络架构,主要用于自然语言处理任务,例如机器翻译、文本分类、语音识别

Transformer的创新之处在于它不依赖于传统的CNN和RNN,而是通过自注意力机制对输入序列进行编码和解码,并通过多头自注意力机制来处理序列。深入了解可以读读What Is ChatGPT Doing … and Why Does It Work?

自注意力机制

在自注意力机制(Self-Attention Mechanism)中,每个元素都可以通过计算与其他元素的相似度(如点积),得到一个权重向量,该向量用于表示该元素在序列中的重要程度。通过引入自注意力机制,Transformer可以更好地捕捉序列中的长距离依赖关系,并在机器翻译、文本分类、语音识别等任务中取得更好的效果

平行语料库:

平行语料库(Parallel Corpus)是指一种包含两个或多个语言相对应的句子或文本的数据集,这些句子或文本在语义上相似或相关,用于支持跨语言的自然语言处理任务。比如,在一份英汉平行语料库中,一句英文句子可能对应着一句汉语翻译

和ChatGPT相关的牛人,也是需要我们了解的,这里仅介绍2位

排行榜第一位:OpenAI的CEO山姆·阿尔特曼(Sam Altman),没别的,就单单OpenAI CEO的这个title

排行榜第二位:wolfram网站的创始人:stephen wolfram,网传他是世上目前活着的最聪明的人TOP3,而且不知道剩下的2个人是谁,目前LLVM无法精确处理一些数据计算问题,但是可以通过 Tool Manipulation的方式 引入 wolfram 来解决

stephenwolfram 写的文章 what-is-chatgpt-doing-and-why-does-it-work 是深入了解ChatGPT的必读文章

一些问答

无论是ChatGPT还是近期各大公司发布的AI,都是基于大型语言模型的(至少他们是这么号称的),那么语言模型的发展过程是怎么样的呢?

在 A Survey of Large Language Models 这篇paper中,将LM(Language Model) 语言模型的发展划分了以下四个阶段

1️⃣ Statistical language models (SLM),主要基于马尔科夫假设(预测当前文本的只参考前x个文本,类似条件概率)

2️⃣ Neural language models (NLM),基于神经网络的语言模型,如CNN,RNN

3️⃣ Pre-trained language models (PLM),基于并行化,自注意力机制的 Transformer架构的语言模型,特点是 “pre-training”,”Fine-tuning“

4️⃣ Large language models (LLM) ,在PLM的的基础上发展而来,特点就是 大,特别大

AGI 通用人工智能 的出现会立即改造经济活动么?

一般不会立即改造经济活动,比如蒸汽机和电力,都是逐渐的改造社会的经济活动的。爱迪生1879年发明了电灯,但是过了20年,美国才有3%的家庭用上了电,1910年新工厂还是优先采用蒸汽动力

以前的工厂用蒸汽动力都是一根蒸汽轴连接所有机器,蒸汽一开所有机器都开。改用电力之后,工厂发现如果每台机器都有独立的电源,那就完全可以用到哪台开哪台,这岂不是更省钱吗?这并不容易,因为这意味着你必须对机器进行改造,什么机床、钻头、金属切割器、压力机,都得根据独立电源重新设计。这是需要时间的,所以电力并没有立即改造经济活动

未来,AI作为社会新的通用基础设施,改造经济活动也是需要时间的

什么是少样本学习?

所谓少样本学习(Few-Shot Learning),就是你给大语言模型一两个例子,它就能学会你的意思并且可以提供相似的输出。少样本学习是语言模型大了之后,涌现出来的能力,模型越大(参数越多)少样本学习能力越强

进行少样本学习会改变语言模型的参数么?

少样本学习不是对模型训练的一部分。我们接触到的模型都是已经训练完毕的,参数已经固定了。少样本学习是这个模型的一个能力,是一种模仿,并不会改变模型本身。当对话结束以后,模型就会忘记你出的例题

如果你的每次对话都能改变ChatGPT的参数,那这个模型岂不是太脆弱了(假设你每次喂得都是数据垃圾)

AI 的大规模应用是让普通人与精英的差距拉大了还是缩小了?

在很多方面是缩小了。最起码,如今任何人都能很方便的找到很多专业问题的答案,ChatGPT把很多以前的所谓精英都变成了伪精英。一个混了个博士学位实则毫无本领的人,根本打不过一个头脑灵活并且掌握了AI的人

普通人可以用ChatGPT干嘛?

首先我就是普通人,在ChatGPT中,我建立了4个Chat,分别是

1️⃣ A-开发助手 : 主要用来处理平时的开发相关的问题,使用GPT辅助/分担部分工作内容,A是我的同事

2️⃣ B-翻译助手 :这个主要是用来中英互译的,聊天内容可以回溯,昨天查询的单词,今天可以复习,是一个很好的英语学习助手,B是我的同学

3️⃣ C-不明白助手 :如果我有什么疑问,我都会向这个助手提问,他几乎都是知无不言,言无不尽,C是我的老师

这种问答,对话的学习方式应该是最原始的学习方式,在书籍没有那么流行,没有教程的年代(孔子和苏格拉底那个年代),不就是这种学习方式么?

4️⃣ D-Chat-Ideas-Bot-4 :用来闲聊,和好想法的记录及辅助创造,ABC3个助手都是基于GPT-3.5的,Plus版本response非常快,D助手是GPT-4的,反应迟钝,所以特定场景才亮这把剑

ABCD只是对日常的使用场景进行了一个简单的分类,聊天问答,其实是ChatGPT 的最浅层能力,比这更重要的是:如何引导AI更好的回答的自己的问题,也就是修炼自己提示工程的能力,深入使用ChatGPT的小伙伴一定发现了,同一个问题,不同的问法的会产生不同的效果,多数时候仅仅一句「请仔细思考」,或者「请一步一步来」,都会得到一个更准确的回复

一般而言,提示公式 = 任务(要求模型生成什么内容) + 角色(模型扮演什么角色) + 指令(生成文本时,模型应该遵循什么),有时候的还可以添加种子词等,有兴趣可以读读 Art-Asking-ChatGPT-High-Quality-Answer 这本教程

有的人甚至对GPT的回复做逆向工程,在人肉识别到一个好的回复之后,让他自己分析为什么产出这样的回复。使用GPT的整个过程就好像寻宝之旅,提示工程就是那本宝藏地图

GPT的命门(Bug)是什么?

1️⃣ 模型在自己不知道的时候,会一本正经的胡说八道,这一点倒是很像人类中的那么一小撮,对应的提升的方向叫做:信息校准

2️⃣ 目前支撑的token数有限(可以理解为输入/出的最大字数有限制),目前没有明显的办法来向模型教授新的事实

3️⃣ 模型缺乏自我更新或适应变化环境的能力。一旦训练好,就是固定的。可以进行微调,但是会导致性能下降或过度拟合

让GPT处理新知识的办法有哪些?

让GPT处理新知识有两个办法

一个办法是在模型的基础上再多喂一些料,继续训练,这个叫做fine tune(微调),比较费时费力,这个会改变原本模型的参数

另一个办法是让模型临时“学习”新的知识,这就是Bing Chat和现在网上很多调用API读书的小工具所做的。这本质上不是训练,而是小样本学习,是对模型的应用,这个方法的缺点是能输入的信息总量有限

和ChatGPT交互,喂给他的数据,他下一次重新对话会有这个记忆吗?

他只记得一次对话中你给他输入的大约前4000(V-3.5)个字

如何处理公司私有数据涉密问题?

可以引进 OpenAI 的训练好的模型(或者其他的大语言模型),在公司内部 fine tune,而不把公司数据给 OpenAI。事实上,这就是现在的标准做法

一点感慨

因为我是万sir的铁粉,他在2020年就解读过GPT-3这个玩意,所以很早就知道这个东西。去年年底,万sir又解读了ChatGPT,我抱着试试的心态通过各种渠道第一时间就拿到了OpenAI的公测账号,彼时我的心态还停留在ChatGPT是个牛x的玩具,自我感觉对于搜索引擎的资深用户来说,用搜索引擎找到的答案是难道会不如ChatGPT?浅浅的感觉这波AI浪潮,和之前的元宇宙一样,泡沫大大的有

近来,对ChatGPT相关的领域知识展开了地毯式的学习和了解,对之前那个没有深入了解就着急忙慌地结论的我表示:嗤之以鼻!泡沫是有,但是比元宇宙,web3靠谱多了

我还记得那晚,在阅读 Stephen Wolfram 写的文章 what-is-chatgpt-doing-and-why-does-it-work(知乎有译文)的时候,真的有被,”卧槽,卧槽,卧槽“ 到,对于AI领域来说,这是从基于规则的AI 到 基于统计分析AI的跨越之后的,又一次巨大的跨越。注:目前只是窥见了冰山一角

对于AI:Stay humble and embrace change ,或者用 Steve Jobs的话说,Stay Hungry. Stay Foolish

文章首发在公众号 : stackoverflow , 欢迎关注

最后:祝春安

学习材料来源

[1] 得到万维钢《精英日课-5》,https://www.dedao.cn/course/article?id=a8QZdRM1OmLxVvGo37JG69rgYPjqWp&source=search
[2] 必读文章What is chatgpt doing and why does it work : https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
[3] 热心网友总结的学习线路图: https://gofurther.feishu.cn/docx/Enofdl25BotoVrxth8ec4rNBn5c
[4] 综述 A Survey of Large Language Models : https://arxiv.org/abs/2303.18223,
[5] 论文解读-技术GitHub 16.7k Star https://github.com/mli/paper-reading

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/9675.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于“复活节Easter”知识,你了解多少?

复活节是基督教纪念耶稣复活的节日。耶稣被钉死在十字架上,死后第三天复活。Christians say Jesus died on Friday. On the third day, he rose from the dead. He became alive again. 复活节定在每年春分月圆之后第一个星期日举行。因为春分之后日照时间比较长&am…

NumPy 秘籍中文第二版:一、使用 IPython

原文:NumPy Cookbook - Second Edition 协议:CC BY-NC-SA 4.0 译者:飞龙 在本章中,我们将介绍以下秘籍: 安装 IPython使用 IPython 作为 Shell阅读手册页安装 matplotlib运行 IPython 笔记本导出 IPython 笔记本导入网…

GPT、科技、人类的生产、知识与未来(上)

本文将继续结合GPT探讨人工智能技术升级可能对人类社会带来的影响。主要还是侧重历史、社会、文化、经济、政治等角度。 问题的提出:ChatGPT等工具会提高人的工作效率和产出。但它会让人类使用者自身变得更“聪明”,还是“更笨”?更“强”&am…

8个商用图片素材库,你一定要收藏

在日常生活中,经常需要用到图片素材,但很多图片是有版权的,使用不当就会造成侵权。如何找到既能免费下载还能商用的图片素材呢~下面我就要把我收藏多年的商用图片素材网分享出来,希望对大家有帮助! 1、菜鸟图库 https…

ROS如何进行开发?

文章目录0、引言1、安装ROS2、ROS创建工作空间和功能包3、在ROS中使用C代码4、在ROS中使用Python代码0、引言 笔者研究生的课题是关于多传感器数据融合的,传感器数据获取一般是通过Arduino或者树莓派获取,Arduino主要偏硬件开发,一般数据处理…

sql语法:详解DDL

Mysql版本:8.0.26 可视化客户端:sql yog 目录一、DDL是什么?二、和数据库相关的DDL2.1 创建数据库2.2 删除数据库2.3 查看所有的数据库,当前用户登录后,可以看到哪些数据库2.4 查看某个数据库的详细定义2.5 修改数据库…

在深圳做了5年软件测试,到头来啥也不是~

本科非计算机专业,在深圳做了5年软件测试工作,从一开始一脸懵的点点点,到现在会自动化测试了,浅谈一下从事软件测试的一点点心得体会,仅供参考交流。如果你本科且非计算机专业的话可以试下(但就目前环境建议…

谈一谈Java的ThreadLocal

目录 先说原理: 再上代码: 运行结果: 先说原理: ThreadLocal 是一个本地线程副本变量工具类,它可以在每个线程中创建一个副本变量,每个线程可以独立地修改自己的副本变量,而不会影响其他线程…

测试的价值不仅仅是找

测试的价值不仅仅是找Bug 在我测试工作的前5年,一直以为测试的目标和价值就是在黑盒测试活动中找bug,以找到bug越多越自豪。但当我随着商业意识的不断积累,跳出测试的视角,站在公司的角度看测试时,会发现测试的目标是商…

linux驱动学习加强版-5(ioctl的使用)

文章目录一、添加ioctl控制节点二、修改测试APP2.1 测试APP的代码:2.2 驱动代码:ioctl是用户空间和内核空间相互交流时候用的比较多的一种手段。我们也可以在HAL层通过ioctl调到驱动里面。一、添加ioctl控制节点 先看patch 吧 这是在驱动中添加的ioct…

个人-计算机操作系统第五章

第五章 虚拟存储器 一、章节练习 1.系统抖动是指( )。 A. 使用机器时,千万屏幕闪烁的现象 B. 刚被调出的页面又立刻被调入所形成的频繁调入调出现象 C. 系统盘不净,千万系统不稳定的现象 D. 由于内存分配不当,偶然造成内存不够…

02-神经网络基础

一、从机器学习到神经网络 1. 两层神经网络 - 多层感知机 2. 浅层神经网络特点 (1)需要数据量小、训练速度快; (2)对复杂函数的表示能力有限,泛化能力受到制约。 Kurt Hornik 证明了理论上两层神经网络足以拟合任意函数,而且过去没有足够的数据和计算能力,因此之前的…

兰伯特光照模型(Lambert Lighting)和半兰伯特光照模型(Half-Lanbert)

关于漫反射 光打到凹凸不平的平面上,光线会被反射到四面八方,被称为漫反射 关于这种模型,由于光线由于分散,所以进入人眼的光线强度和观察角度没有区别 在A点和B点接收到的光线强度是一样的 在漫反射下,光线强度只和光…

卫龙携手契约锁,推动人事、采购、销售业务电子签

知名辣味休闲食品企业——卫龙,携手契约锁就印章管控及电子签章技术展开合作,打造覆盖总部及20多家子公司的印章管控平台,以现有泛微OA、钉钉APP为基础,推动人事、采购、销售业务电子签,通过签字、盖章无纸化&#xff…

使用Navicat进行ssh通道连接MySQL数据库

1、正常打开连接窗口,选择SSH; 2、填写完SSH对应参数,重新选择常规; SSH参数: 主机 > 服务器IP 端口 > 22 【一般22,SSH监听端口】 用户名 > 登录服务器账户 密码 > 登录服务器密码常规的参数…

mplfinancet绘制K线图

mplfinancet绘制K线图 1、安装 安装速度快 pip install mplfinance -i https://pypi.tuna.tsinghua.edu.cn/simple C:\Users>pip install mplfinance -i https://pypi.tuna.tsinghua.edu.cn/simple Defaulting to user installation because normal site-packages is not …

35岁的测试工程师被公司强行辞退,感叹道:我以前就该好好努力了

曾经的高薪软件测试工程师,今年35岁了,被公司劝退了,外卖跑到凌晨,很累,但还是有一种想诉说的冲动。哪怕让大家觉得已经说得太多了,烦了,都成祥林嫂了,但是,我是真的想说…

js:手写一个promise

背景 promise 作为前端开发中常用的函数,解决了 js 处理异步时回调地狱的问题,大家应该也不陌生了,今天来学习一下 promise 的实现过程,这样可以加(面)深(试)理(要&…

第八天并发编程篇

一、简述线程、进程、程序的基本概念? 1.进程: 我们把运行中的程序叫做进程,每个进程都会占用内存与CPU资源,进程与进程之间互相独立. 2.线程: 线程就是进程中的一个执行单元,负责当前进程中程序的执行。一个进程可以包含多个线程…

Matlab在线IDE:计算定积分上限

上一篇文章:Matlab在线IDE:MATLAB Online介绍与计算定积分案例 1、案例介绍 % 定义符号变量 x syms x;% 定义函数 f(x) x f x;% 定义定积分的值 I I 2;% 计算函数 f(x) 在 [0, x] 区间的定积分,并求其反函数 F(x) F finverse(int(f, 0, …