原创 | 文 BFT机器人
当人们说“生成式人工智能”时,你知道这代表着什么意思吗?为什么这些系统似乎正在覆盖所有涉及联想的应用程序?近日,麻省理工学院的人工智能专家帮助剖析了这种日益流行且无处不在的技术。
当你快速浏览一下头条新闻就会发现,如今生成人工智能似乎无处不在。其中一些头条新闻实际上可能就是由生成式人工智能撰写的,例如OpenAI的ChatGPT,这是一个聊天机器人,它表现出了令人意想不到的能力,那就是可以生成看似由人类编写的文本。
图片来源:网络
但“生成式人工智能”真正的含义是什么呢?
在过去人工智能蓬勃发展,当人们谈论人工智能时,通常谈论的是可以根据数据进行预测的机器学习模型。例如,使用人工智能对将要会出现的情况进行预测。
生成式人工智能可以被认为是一种机器学习模型,经过训练可以创建新的数据,而不是对固定的数据集进行预测。生成式人工智能系统能够学习生成更多像它在训练时创建数据的对象。
“当谈到生成式人工智能和其他类型人工智能的实际区别时,区别可能有点模糊,一般来说,相同的算法可以用于两者。”麻省理工学院电子工程与计算机科学副教授、计算机科学与人工智能实验室(CSAIL)成员Phillip Isola说。
尽管ChatGPT及其同类产品的发布引起了大肆宣扬,但该技术本身并不是全新的。这些强大的机器学习模型借鉴了50多年前的研究和计算进展。
01
复杂性成上升趋势
生成式人工智能的一个早期是一个简单得多的模型,称为马尔可夫链。这项技术是以俄罗斯数学家Andrey Markov的名字命名的,他在1906年引入了这项技术来模拟随机过程。在机器学习中,马尔可夫模型长期以来一直用于下一个单词预测任务,例如电子邮件程序中的自动完成功能。
在文本预测中,马尔可夫模型通过查看前一个单词或前面的几个单词来生成句子中的下一个单词。但由于这些简单的模型预测的数据集有限,因此它们不擅长生成可信的文本。
“我们在过去十年之前就已经开始生成东西了,但这里的主要区别在于我们可以生成的对象的复杂性以及我们可以训练这些模型的规模,”省理工学院电气工程和计算机科学的教授Tommi Jaakkola说道。
就在几年前,研究人员还倾向于寻找一种能够充分利用特定数据集的机器学习算法。但这种关注点已经发生了一些转移,许多研究人员现在正在使用更大的数据集(可能包含数亿甚至数十亿的数据点)来训练可以取得令人更加可靠结果的模型。
ChatGPT和类似系统的基础模型的工作方式与马尔可夫模型非常相似。但一个很大的区别是ChatGPT更大、更复杂,有数十亿个参数,它接受了大量数据的训练——在这种情况下,大部分是互联网上公开可用的文本。
在这个庞大的文本语料库中,单词和句子以具有一定重复性的顺序出现。这种重复有助于模型理解如何将文本切割成具有一定可预测性的统计块。它学习这些文本块的模式,并利用这些知识来提出接下来可能发生的情况。
02
更强大的架构
虽然更大的数据集是导致生成式人工智能逐渐强大的催化剂之一,但各种重大研究进展也产生了更复杂的深度学习架构。
2014年,蒙特利尔大学的研究人员提出了一种称为生成对抗网络 (GAN) 的机器学习架构。GANs使用两个协同工作的模型:一个学习生成目标输出(如图像),另一个学习从生成器的输出中区分真实数据。生成器试图欺骗鉴别器,并在此过程中学习做出更真实的数据输出。图像生成器StyleGAN就是基于这些类型的模型。
一年后,斯坦福大学和加州大学伯克利分校的研究人员引入了扩散模型。通过迭代地完善它输出,这些模型学习生成与训练数据集中的样本相似的新数据样本,并已用于创建逼真的图像。扩散模型是文本到图像生成系统稳定扩散的核心。
2017年,谷歌的研究人员推出了转换器架构,该架构已用于开发大型语言模型,例如为ChatGPT提供支持的语言模型。在自然语言处理中,转换器将文本语料库中的每个单词编码为一个标记,然后生成一个标记图,该图捕获每个标记与所有其他标记的关系,此标记图可帮助转换器在生成新文本时理解上下文。
这些只是可用于生成人工智能的众多方法中的几种。
03
危险的信号已经举起
生成式人工智能聊天机器人现在被用于客服中心来回答人类客户的问题,但这一应用程序强调了实施这些模型的一个潜在危险信号——工人被取代了。
此外,生成式人工智能可以继承和扩散训练数据中存在的虚假问题,或放大仇恨言论和虚假陈述。这些模型具有抄袭的能力,并且可以生成看起来像是由特定人类创作者制作的内容,从而引发潜在的版权问题。
另一方面,有人提出,生成人工智能可以增强艺术家的能力,他们可以使用生成工具来帮助他们制作创造性的内容,否则他们可能没有生产的手段。
在未来,生成式人工智能将改变许多领域的经济动态。
或者有些人认为生成式人工智能未来可以应用在制造业中,也许它可以生成一个生产椅子的程序,而不只是让制作一张椅子的图像。
生成式人工智能系统在未来将用于开发更广泛的智能人工媒介。这些模型的工作方式和我们对人类大脑工作方式的理解存在一定的差异,但我认为也有相似之处。这些大模型与人类大脑是可以共存的,我们有能力在头脑中思考和想象,提出有趣的想法或计划,而生成式人工智能是帮我们实现创新和想法的媒介,正确使用生成式人工智能能够给社会或者个人带来更多的效益。
注:若您对该文章内容有任何疑问,请与我们联系,将及时回应。