人工智能绘画的起源可以追溯到20世纪50年代。当时,艺术家和科学家开始使用计算机生成图像和图形,将绘画艺术与技术领域相结合。计算机图像可以被视为人工智能绘画的一部分。下面,我们将按照时间顺序来了解人工智能绘画发展的一些关键时间节点。
(1)在20世纪50年代,电子艺术先驱Ben Laposky使用计算机示波器生成了一幅艺术作品,如图所示。
(2)在20世纪60年代,艺术家和科学家开始使用计算机的计算能力进行创作。下图是计算机艺术之父Charles Csuri用计算机生成的作品,名为“蜂鸟”。
(3)在20世纪70—90年代,随着计算机硬件和软件的不断进步,计算机图形学技术取得了重大突破。在这期间,HaroldCohen开发了AARON绘画程序,并在随后的几十年中不断改进和完善,成为人工智能绘画领域的先驱之作。下图为AARON的一件作品。
(4)在21世纪初,随着深度学习技术的发展,计算机视觉和图像生成算法取得了显著进展,为人工智能绘画提供了新的可能性。在2009年,基于深度学习的艺术风格迁移算法DeepArt发布,使得将某种艺术风格应用于图像成为可能。图为基于DeepArt算法绘制的作品。
真正意义上的人工智能绘画指的是基于深度学习模型进行自动作图的计算机程序,这种绘画方式的发展在时间上是较晚的。
(5)在2012年,Google公司的吴恩达(Andrew Ng)和Jef Dean进行了一项实验,使用1.6万个CPU训练一个当时世界上最大的深度学习网络,用于指导计算机绘制猫脸图像。他们使用来自YouTube的1000万幅猫脸图像进行训练,历时3天,最终用得到的模型生成了一幅非常模糊的猫脸图像,如图所示。
这个模型的训练效率和输出结果对于当时的AI研究领域来说是一次具有突破意义的尝试。它正式开启了支持深度学习模型的人工智能绘画这个全新的研究方向。人工智能科学家们纷纷投入到这个新的具有挑战性的领域中,探索如何利用深度学习技术来生成具有艺术性的图像和绘画作品。这项实验的成功为后续的研究和发展奠定了坚实的基础,并推动了人工智能绘画的进一步发展。
(6)在2014年,AI学术界提出了一个非常重要的深度学习模型,那就是著名的对抗生成网络(Generative AdversarialNetwork,GAN)。这个深度学习模型的核心理念是通过让两个内部程序,即生成器(generator)和判别器(discriminator), 相互对抗平衡来获得结果。
生成器的目标是生成逼真的样本,如图像、音频等,而判别器的目标是尽可能准确地区分生成器生成的样本和真实样本。通过不断地进行对抗训练,生成器和判别器相互竞争、学习和提升,最终达到生成高质量样本的目的。
GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。它也随即成为许多AI绘画模型的基础框架,其中生成器用来生成图像,而判别器用来评估图像质量。GAN模型的引入极大地推动了图像生成、风格迁移等领域的发展,从而推动了AI绘画的发展。图1-9为基于GAN模型的AI绘画作品。
但是,使用基础的GAN模型进行AI绘画也存在明显的缺陷。一方面,对于输出结果的控制力较弱,往往容易产生随机图像,而AI艺术家的输出应该是稳定可控的。另一方面,生成图像的分辨率较低。
(7)在2015年,人工智能绘画领域取得了新的突破。Gatys等人提出了著名的神经风格迁移论文,通过将卷积神经网络(CNN)应用于艺术风格迁移,使得人工智能绘画的技术更加成熟。这项研究将艺术风格与内容分离,并利用CNN的特征表示来实现图像的风格迁移。这一方法在艺术创作和图像处理领域引起了广泛的关注和应用,为人工智能绘画的发展带来了重要的进步
(8)在2015年,Google发布了一个名为深梦(Deep Dream)的图像工具,该工具引起了广泛的关注。深梦通过对图像进行迭代处理,强调和增强图像中的纹理和模式,创造出独特而幻觉般的视觉效果。深梦生成的画作吸引了很多人的注意,谷歌甚至为这些作品策划了一场画展,进一步展示了深梦在艺术领域中的潜力和影响。图为深梦的作品之一《月球时代的白日梦》。
2018年,Obvious艺术团队利用GAN创作的《肖像:埃德蒙・贝拉米》在佳士得拍卖中以43.25万美元的价格成交。这一事件意味着人工智能绘画正式被认可为一种艺术形式,并得到了市场的承认。这次拍卖成交的高价反映了人工智能绘画作品的独特性和艺术价值,同时也引发了对于人工智能在艺术创作中的探索和潜力的讨论。图为GAN创造的这幅作品。
(9)2021年年初,OpenAI发布了备受关注的DALL-E系统,这标志着人工智能开始具备一个重要的能力,那就是可以根据文字进行创作。DALL-E系统利用深度学习模型生成图像,并能够根据文字描述来创造出与之对应的图像。这一技术的推出引起了广泛的关注和讨论,为人工智能在创作领域的发展带来了新的可能性。通过输入文字,人工智能可以生成与之相关的图像,这为创意产业和设计领域带来了新的创作工具和思路。图为DALL-E系统创作的作品《戴珍珠耳环的少女》。
(10)在2021年1月,OpenAI团队开源了他们的深度学习模型CLIP(Contrastive Language-Image Pre-Training,对比文本-图像预训练模型),这是当时最先进的图像分类人工智能模型之一。
CLIP模型的训练过程可以简单概括为:使用已标注好的“文字-图像”训练数据,分别对文字和图像进行模型训练。通过不断调整两个模型的内部参数,使得模型输出的文字特征值和图像特征值能够准确匹配对应的“文字-图像”关系。CLIP模型与以往的“文字-图像”匹配模型不同,它利用了40亿个“文本-图像”训练数据。这么多的数据和昂贵的训练时间使得CLIP模型终于修成正果。互联网上的图像通常都带有各种文本描述,例如标题、注释、用户标签等,这些文本成为可用的训练样本。通过这种巧妙的方式,CLIP的训练过程完全避免了最昂贵费时的人工标注,或者说,全世界的互联网用户已经提前完成了标注工作。这一创新为图像分类和语义理解领域带来了重要的突破,使得AI能够更好地理解和处理图像与文本之间的关系。
(11)2022年3月,一个全球范围的非营利机器学习研究机构LAION开放了当前最大规模的开源跨模态数据库LAION-5B。该数据库包含接近60亿(58.5亿)个图像-文本对,可用于训练从文本到图像的生成模型以及用于给文本和图像的匹配程度打分的CLIP模型。这两种模型都是现代AI图像生成的核心。
LAION不仅提供了大量的训练素材库,还训练AI根据艺术感和视觉美感对LAION-5B中的图像进行评分,并将得分较高的图像归入名为LAION-Aesthetics的子集。实际上,最新的AI绘画模型,包括随后提到的AI绘画Stable Diffusion,都是基于LAION-Aesthetics这个高质量数据集进行训练的。这一数据集的质量和规模为AI绘画领域的研究和发展提供了重要的资源和支持。
(12)扩散模型的引入为AI绘画领域带来了新的思路,并弥补了GAN模型的一些不足之处。GAN模型是生成对抗网络,它在附加条件方面表现较差。例如,在生成人脸后,很难进一步指定发型、细节等特定要求。为了解决这个问题,扩散模型被提出作为另一种思路。
扩散模型通过将图像加入高斯噪点形成噪点图,然后通过算法逆过程进行减噪,生成最终的图像。这种模型可以在噪点图的基础上进行操作,通过调整和控制噪点的分布,实现更加精细的图像生成。扩散模型已经成为主流的AI绘画软件的基础,它可以更好地满足用户对于图像的特定要求和细节控制,提供更灵活和个性化的绘画体验。
(13)Diffusion模型是一种对于像素空间具有巨大算力需求的模型进行优化的方法。传统的扩散模型在像素空间中操作,因此需要大量的计算资源和内存。为了解决这个问题,提出了基于潜在空间的Diffusion模型,通过降低维度来减少计算和内存需求。
基于潜在空间的Diffusion模型与像素空间模型相比,能够显著降低内存和计算要求。例如,Stable Diffusion模型使用的潜在空间编码缩减因子为8,即将图像的长和宽都缩减8倍,一个512×512像素的图像在潜在空间中直接变为64×64像素,节省了8×8=64倍的内存。
这种基于潜在空间的优化能够在保持图像质量的同时,大幅度减少计算和内存需求,使得Diffusion模型在实际应用中更加高效和可行。这为AI绘画领域的发展带来了重要的技术突破,使得更多人能够在有限的硬件资源下享受到高质量的AI绘画体验
(14)在2022年的AI领域,基于文本生成图像的AI绘画模型成为备受关注的主角。其中,Disco Diffusion是一个在2月初开始爆红的AI图像生成程序,它能够根据描述场景的关键词渲染出相应的图像。这个程序的开发者是艺术家兼程序开发员Somnai_dreams。
Disco Diffusion的独特之处在于它能够通过文字输入描述来生成具有艺术感的图像,并且能够根据关键词准确地渲染出所需的场景。这种技术为艺术创作和设计领域提供了新的可能性,使得艺术家和创作者能够以更直观的方式表达他们的创意和想象。Somnai_dreams作为该程序的开发者,通过结合艺术和技术的力量,为AI绘画领域带来了新的创新和突破。图为Disco Diffusion程序的界面。
(15)2022年4月,著名人工智能团队OpenAI发布了新一代的模型,名为DALL-E 2.0。该名称来源于著名画家达利Dalí)和电影《机器人总动员》(Wall-E)。同样类似于前一代的DALL-E模型,DALL-E 2.0也具备从文本描述生成效果良好的图像的能力。DALL-E 2.0在继承了前一代模型的基础上进行了改进和优化,以提供更高质量、更多样化的图像生成结果。
(16)2022年4月,人工智能Midjourney邀请内测。由Midjourney创作的《太空歌剧院》作品一度引起了轰动,并在美国科罗拉多州举办的新兴数字艺术家竞赛中荣获“数字艺术/数字修饰照片”类别的一等奖。《太空歌剧院》的获奖彰显了人工智能在数字艺术领域的潜力和创造力。Midjourney的创作展示了人工智能在图像处理和艺术创作方面的能力。图为Midjourney创作的《太空歌剧院》。
(17)在2022年的5月和6月,Google发布了两个重要的模型,分别是Imagen和Parti,并开放了相关的论文。Imagen模型和Parti模型都代表了人工智能图像处理领域的前沿技术,它们在图像生成、图像分割、图像处理等方面具有重要的应用价值。Google的开放论文也为学术界和研究人员提供了宝贵的参考和研究资源。
(18)在2022年的8月,Stable Diffusion模型开源。StableDiffusion是一个重要的AI绘画模型,通过扩散化和潜在空间的技术,实现了高质量图像的生成。该模型的开源使更多的研究人员和开发者能够了解和应用这一先进的AI绘画技术,促进了AI绘画领域的进一步发展和创新。这一开源的举措为艺术家和 创作者提供了更多的工具和资源,推动了AI在艺术创作中的应用和探索。
(19)2022年8月26日,基于家用GPU的训练模型Dreambooth正式宣布问世。12天后,该模型的开源端口也被公布出来。随后的25天,Dreambooth的训练所需的内存空间降低了整整79%。到了10月8日,Dreambooth已经能够在仅有8GB的GPU上进行训练。这些进展意味着Dreambooth模型在训练过程中对硬件资源的需求大大降低,使更多的个人用户和研究者能够在家用GPU上使用和训练该模型。Dreambooth的出现为AI绘画领域带来了更加便捷和高效的训练方案,推动了AI艺术创作的普及和发展。
(20)2023年2月,Stable Diffusion基于图像精确控制的ControlNet发布。
(21)2023年3月,Midjourney v5正式发布。
(22)2023年5月,著名的图像软件公司Adobe发布了Firefly。
人工智能绘画(AI绘画)作为一个充满探索和交流氛围的领域,将会在技术的不断发展和应用中不断取得进步。随着人工智能技术的不断成熟和进步,我们可以期待人工智能在艺术领域发挥更加重要的作用。
人工智能绘画不仅为艺术家和创作者提供了新的工具和资源,还激发了更多的创新和创造力。通过人工智能的算法和模型,我们能够以更加智能和高效的方式进行艺术创作,探索出更多新颖、独特的艺术表达形式。
未来,人工智能绘画有望在艺术领域带来更多的创新和发展。它将成为艺术家们的合作伙伴和创作工具,为艺术作品注入新的灵感和想象力。我们可以期待在人工智能的帮助下,艺术领域将迎来更多的突破和进步。