人工智能绘画的历史

        人工智能绘画的起源可以追溯到20世纪50年代。当时,艺术家和科学家开始使用计算机生成图像和图形,将绘画艺术与技术领域相结合。计算机图像可以被视为人工智能绘画的一部分。下面,我们将按照时间顺序来了解人工智能绘画发展的一些关键时间节点。

        (1)在20世纪50年代,电子艺术先驱Ben Laposky使用计算机示波器生成了一幅艺术作品,如图所示。

        (2)在20世纪60年代,艺术家和科学家开始使用计算机的计算能力进行创作。下图是计算机艺术之父Charles Csuri用计算机生成的作品,名为“蜂鸟”。

        (3)在20世纪70—90年代,随着计算机硬件和软件的不断进步,计算机图形学技术取得了重大突破。在这期间,HaroldCohen开发了AARON绘画程序,并在随后的几十年中不断改进和完善,成为人工智能绘画领域的先驱之作。下图为AARON的一件作品。

        (4)在21世纪初,随着深度学习技术的发展,计算机视觉和图像生成算法取得了显著进展,为人工智能绘画提供了新的可能性。在2009年,基于深度学习的艺术风格迁移算法DeepArt发布,使得将某种艺术风格应用于图像成为可能。图为基于DeepArt算法绘制的作品。

        真正意义上的人工智能绘画指的是基于深度学习模型进行自动作图的计算机程序,这种绘画方式的发展在时间上是较晚的。

        (5)在2012年,Google公司的吴恩达(Andrew Ng)和Jef Dean进行了一项实验,使用1.6万个CPU训练一个当时世界上最大的深度学习网络,用于指导计算机绘制猫脸图像。他们使用来自YouTube的1000万幅猫脸图像进行训练,历时3天,最终用得到的模型生成了一幅非常模糊的猫脸图像,如图所示。

        这个模型的训练效率和输出结果对于当时的AI研究领域来说是一次具有突破意义的尝试。它正式开启了支持深度学习模型的人工智能绘画这个全新的研究方向。人工智能科学家们纷纷投入到这个新的具有挑战性的领域中,探索如何利用深度学习技术来生成具有艺术性的图像和绘画作品。这项实验的成功为后续的研究和发展奠定了坚实的基础,并推动了人工智能绘画的进一步发展。

        (6)在2014年,AI学术界提出了一个非常重要的深度学习模型,那就是著名的对抗生成网络(Generative AdversarialNetwork,GAN)。这个深度学习模型的核心理念是通过让两个内部程序,即生成器(generator)和判别器(discriminator), 相互对抗平衡来获得结果。

        生成器的目标是生成逼真的样本,如图像、音频等,而判别器的目标是尽可能准确地区分生成器生成的样本和真实样本。通过不断地进行对抗训练,生成器和判别器相互竞争、学习和提升,最终达到生成高质量样本的目的。

        GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。它也随即成为许多AI绘画模型的基础框架,其中生成器用来生成图像,而判别器用来评估图像质量。GAN模型的引入极大地推动了图像生成、风格迁移等领域的发展,从而推动了AI绘画的发展。图1-9为基于GAN模型的AI绘画作品。

        但是,使用基础的GAN模型进行AI绘画也存在明显的缺陷。一方面,对于输出结果的控制力较弱,往往容易产生随机图像,而AI艺术家的输出应该是稳定可控的。另一方面,生成图像的分辨率较低。

        (7)在2015年,人工智能绘画领域取得了新的突破。Gatys等人提出了著名的神经风格迁移论文,通过将卷积神经网络(CNN)应用于艺术风格迁移,使得人工智能绘画的技术更加成熟。这项研究将艺术风格与内容分离,并利用CNN的特征表示来实现图像的风格迁移。这一方法在艺术创作和图像处理领域引起了广泛的关注和应用,为人工智能绘画的发展带来了重要的进步

        (8)在2015年,Google发布了一个名为深梦(Deep Dream)的图像工具,该工具引起了广泛的关注。深梦通过对图像进行迭代处理,强调和增强图像中的纹理和模式,创造出独特而幻觉般的视觉效果。深梦生成的画作吸引了很多人的注意,谷歌甚至为这些作品策划了一场画展,进一步展示了深梦在艺术领域中的潜力和影响。图为深梦的作品之一《月球时代的白日梦》。

        2018年,Obvious艺术团队利用GAN创作的《肖像:埃德蒙・贝拉米》在佳士得拍卖中以43.25万美元的价格成交。这一事件意味着人工智能绘画正式被认可为一种艺术形式,并得到了市场的承认。这次拍卖成交的高价反映了人工智能绘画作品的独特性和艺术价值,同时也引发了对于人工智能在艺术创作中的探索和潜力的讨论。图为GAN创造的这幅作品。

        (9)2021年年初,OpenAI发布了备受关注的DALL-E系统,这标志着人工智能开始具备一个重要的能力,那就是可以根据文字进行创作。DALL-E系统利用深度学习模型生成图像,并能够根据文字描述来创造出与之对应的图像。这一技术的推出引起了广泛的关注和讨论,为人工智能在创作领域的发展带来了新的可能性。通过输入文字,人工智能可以生成与之相关的图像,这为创意产业和设计领域带来了新的创作工具和思路。图为DALL-E系统创作的作品《戴珍珠耳环的少女》。

        (10)在2021年1月,OpenAI团队开源了他们的深度学习模型CLIP(Contrastive Language-Image Pre-Training,对比文本-图像预训练模型),这是当时最先进的图像分类人工智能模型之一。

        CLIP模型的训练过程可以简单概括为:使用已标注好的“文字-图像”训练数据,分别对文字和图像进行模型训练。通过不断调整两个模型的内部参数,使得模型输出的文字特征值和图像特征值能够准确匹配对应的“文字-图像”关系。CLIP模型与以往的“文字-图像”匹配模型不同,它利用了40亿个“文本-图像”训练数据。这么多的数据和昂贵的训练时间使得CLIP模型终于修成正果。互联网上的图像通常都带有各种文本描述,例如标题、注释、用户标签等,这些文本成为可用的训练样本。通过这种巧妙的方式,CLIP的训练过程完全避免了最昂贵费时的人工标注,或者说,全世界的互联网用户已经提前完成了标注工作。这一创新为图像分类和语义理解领域带来了重要的突破,使得AI能够更好地理解和处理图像与文本之间的关系。

        (11)2022年3月,一个全球范围的非营利机器学习研究机构LAION开放了当前最大规模的开源跨模态数据库LAION-5B。该数据库包含接近60亿(58.5亿)个图像-文本对,可用于训练从文本到图像的生成模型以及用于给文本和图像的匹配程度打分的CLIP模型。这两种模型都是现代AI图像生成的核心。

        LAION不仅提供了大量的训练素材库,还训练AI根据艺术感和视觉美感对LAION-5B中的图像进行评分,并将得分较高的图像归入名为LAION-Aesthetics的子集。实际上,最新的AI绘画模型,包括随后提到的AI绘画Stable Diffusion,都是基于LAION-Aesthetics这个高质量数据集进行训练的。这一数据集的质量和规模为AI绘画领域的研究和发展提供了重要的资源和支持。

        (12)扩散模型的引入为AI绘画领域带来了新的思路,并弥补了GAN模型的一些不足之处。GAN模型是生成对抗网络,它在附加条件方面表现较差。例如,在生成人脸后,很难进一步指定发型、细节等特定要求。为了解决这个问题,扩散模型被提出作为另一种思路。

        扩散模型通过将图像加入高斯噪点形成噪点图,然后通过算法逆过程进行减噪,生成最终的图像。这种模型可以在噪点图的基础上进行操作,通过调整和控制噪点的分布,实现更加精细的图像生成。扩散模型已经成为主流的AI绘画软件的基础,它可以更好地满足用户对于图像的特定要求和细节控制,提供更灵活和个性化的绘画体验。

        (13)Diffusion模型是一种对于像素空间具有巨大算力需求的模型进行优化的方法。传统的扩散模型在像素空间中操作,因此需要大量的计算资源和内存。为了解决这个问题,提出了基于潜在空间的Diffusion模型,通过降低维度来减少计算和内存需求。

        基于潜在空间的Diffusion模型与像素空间模型相比,能够显著降低内存和计算要求。例如,Stable Diffusion模型使用的潜在空间编码缩减因子为8,即将图像的长和宽都缩减8倍,一个512×512像素的图像在潜在空间中直接变为64×64像素,节省了8×8=64倍的内存。

        这种基于潜在空间的优化能够在保持图像质量的同时,大幅度减少计算和内存需求,使得Diffusion模型在实际应用中更加高效和可行。这为AI绘画领域的发展带来了重要的技术突破,使得更多人能够在有限的硬件资源下享受到高质量的AI绘画体验

        (14)在2022年的AI领域,基于文本生成图像的AI绘画模型成为备受关注的主角。其中,Disco Diffusion是一个在2月初开始爆红的AI图像生成程序,它能够根据描述场景的关键词渲染出相应的图像。这个程序的开发者是艺术家兼程序开发员Somnai_dreams。

        Disco Diffusion的独特之处在于它能够通过文字输入描述来生成具有艺术感的图像,并且能够根据关键词准确地渲染出所需的场景。这种技术为艺术创作和设计领域提供了新的可能性,使得艺术家和创作者能够以更直观的方式表达他们的创意和想象。Somnai_dreams作为该程序的开发者,通过结合艺术和技术的力量,为AI绘画领域带来了新的创新和突破。图为Disco Diffusion程序的界面。

        (15)2022年4月,著名人工智能团队OpenAI发布了新一代的模型,名为DALL-E 2.0。该名称来源于著名画家达利Dalí)和电影《机器人总动员》(Wall-E)。同样类似于前一代的DALL-E模型,DALL-E 2.0也具备从文本描述生成效果良好的图像的能力。DALL-E 2.0在继承了前一代模型的基础上进行了改进和优化,以提供更高质量、更多样化的图像生成结果。

        (16)2022年4月,人工智能Midjourney邀请内测。由Midjourney创作的《太空歌剧院》作品一度引起了轰动,并在美国科罗拉多州举办的新兴数字艺术家竞赛中荣获“数字艺术/数字修饰照片”类别的一等奖。《太空歌剧院》的获奖彰显了人工智能在数字艺术领域的潜力和创造力。Midjourney的创作展示了人工智能在图像处理和艺术创作方面的能力。图为Midjourney创作的《太空歌剧院》。

        (17)在2022年的5月和6月,Google发布了两个重要的模型,分别是Imagen和Parti,并开放了相关的论文。Imagen模型和Parti模型都代表了人工智能图像处理领域的前沿技术,它们在图像生成、图像分割、图像处理等方面具有重要的应用价值。Google的开放论文也为学术界和研究人员提供了宝贵的参考和研究资源。

        (18)在2022年的8月,Stable Diffusion模型开源。StableDiffusion是一个重要的AI绘画模型,通过扩散化和潜在空间的技术,实现了高质量图像的生成。该模型的开源使更多的研究人员和开发者能够了解和应用这一先进的AI绘画技术,促进了AI绘画领域的进一步发展和创新。这一开源的举措为艺术家和 创作者提供了更多的工具和资源,推动了AI在艺术创作中的应用和探索。

        (19)2022年8月26日,基于家用GPU的训练模型Dreambooth正式宣布问世。12天后,该模型的开源端口也被公布出来。随后的25天,Dreambooth的训练所需的内存空间降低了整整79%。到了10月8日,Dreambooth已经能够在仅有8GB的GPU上进行训练。这些进展意味着Dreambooth模型在训练过程中对硬件资源的需求大大降低,使更多的个人用户和研究者能够在家用GPU上使用和训练该模型。Dreambooth的出现为AI绘画领域带来了更加便捷和高效的训练方案,推动了AI艺术创作的普及和发展。

        (20)2023年2月,Stable Diffusion基于图像精确控制的ControlNet发布。

         (21)2023年3月,Midjourney v5正式发布。

        (22)2023年5月,著名的图像软件公司Adobe发布了Firefly。

        人工智能绘画(AI绘画)作为一个充满探索和交流氛围的领域,将会在技术的不断发展和应用中不断取得进步。随着人工智能技术的不断成熟和进步,我们可以期待人工智能在艺术领域发挥更加重要的作用。

        人工智能绘画不仅为艺术家和创作者提供了新的工具和资源,还激发了更多的创新和创造力。通过人工智能的算法和模型,我们能够以更加智能和高效的方式进行艺术创作,探索出更多新颖、独特的艺术表达形式。

        未来,人工智能绘画有望在艺术领域带来更多的创新和发展。它将成为艺术家们的合作伙伴和创作工具,为艺术作品注入新的灵感和想象力。我们可以期待在人工智能的帮助下,艺术领域将迎来更多的突破和进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/686920.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

26-LINUX--I/O复用-select

一.I/O复用概述 /O复用使得多个程序能够同时监听多个文件描述符,对提高程序的性能有很大帮助。以下情况适用于I/O复用技术: ◼ TCP 服务器同时要处理监听套接字和连接套接字。 ◼ 服务器要同时处理 TCP 请求和 UDP 请求。 ◼ 程序要同时处理多个套接…

如何使用SeaFile文件共享服务器结合内网穿透将家中电脑变成个人云盘

文章目录 1. 前言2. SeaFile云盘设置2.1 Owncould的安装环境设置2.2 SeaFile下载安装2.3 SeaFile的配置 3. cpolar内网穿透3.1 Cpolar下载安装3.2 Cpolar的注册3.3 Cpolar云端设置3.4 Cpolar本地设置 4.公网访问测试5.结语 1. 前言 本文主要为大家介绍,如何使用两个…

冯喜运:6.7今日外汇黄金原油走势分析及日内操作策略

【黄金消息面分析】:美国初请失业金人数超预期,市场对美联储9月降息预期升温,全球降息潮起,黄金市场受支撑。北京时间本周四,美国劳工部公布的数据显示,截至6月1日当周初请失业金人数增加至22.9万人&#x…

StableDiffusion Windows本地部署

检查电脑环境 启动CMD命令窗。 如上图,在CMD窗口输入python命令,可查看本地安装的python版本信息等。输入exit()退出python命令行 执行where命令,可查看python安装目录。 必须安装Python3.10.x,因为stable-diffusion-webui的一…

卫星通信频段有哪些

卫星通信使用到的频段涵盖L, S, C, Ku, Ka等,而最常用的频段是C(4~8GHz)和Ku(12~18GHz)频段,而Ka(27-40GHz)频段是后起之秀。目前地球赤道上空有限的地球同步卫星轨位几乎已被各国占满,C和Ku频段内的频率资源被大量使用,而Ka频段的…

Java学习中,如何理解注解的概念及常用注解的使用方法

一、简介 Java注解(Annotation)是一种元数据,提供了一种将数据与程序元素(类、方法、字段等)关联的方法。注解本身不改变程序的执行逻辑,但可以通过工具或框架进行处理,从而影响编译、运行时的…

新品发布 | 飞凌嵌入式RK3576核心板,为AIoT应用赋能

为了充分满足AIoT市场对高性能、高算力和低功耗主控日益增长的需求,飞凌嵌入式全新推出基于Rockchip RK3576处理器开发设计的FET3576-C核心板! 集成4个ARM Cortex-A72和4个ARM Cortex-A53高性能核,内置6TOPS超强算力NPU,为您的AI…

ComfyUI 完全入门:必备插件

ComfyUI 是一个基于 Stable Diffusion 的AI绘画创作工具,最近发展势头特别迅猛,但是 ComfyUI 的上手门槛有点高,用户需要对 Stable Diffusion 以及各种数字技术的原理有一定的了解才行。这个系列将会介绍 ComfyUI 的一些基础概念和使用方法&a…

1+x(Java)中级题库易混淆理论题(三)

SQL 语句中进行 group by 分组时,可以不写 where 子句 分组时可以多层分组,比如:先按照省、再按照市来分组。 File 类不能获取文件的内容 在使用 select 语句进行查询分组时,如果希望去掉不满足条件的分组,使用 hav…

ES 8的向量检索性能调优实践

前言 ES的官方实验室曾发布过一篇博客,介绍了使ES向量检索性能获得显著提升的技术要点与展望: 多线程搜索能力的利用:Lucene 的分段架构允许实现多线程搜索能力。Elasticsearch 通过同时搜索多个段来提高性能,使用所有可用的 CPU 核心的计算能力显著减少了单个搜索的延迟。…

Laravel框架进阶:掌握队列系统,优化应用性能

Laravel使用队列处理 本文主要讲述如何利用 Laravel 框架的队列系统来管理异步任务和设置周期性执行的任务,从而增强应用程序的效能和可靠性。 Laravel队列的优势 异步执行:将任务添加到队列中后,可以立即返回响应给用户,而任务…

1000Base-T协议解读

一、说明 千兆以太网家族包括1000Base-SX(短距)、1000Base-LX(长距)、1000Base-CX(铜缆短距)、1000Base-T1(车载以太网)和1000Base-T等多种标准,我们这边主要了解下1000Base-T,也就是工业千兆以太网,PC电脑的网口都是这个。 1000Base-T采用了4D-PAM5编码技术(4D代…

SpringBoot整合RabbitMQ (持续更新中)

RabbitMQ 官网地址:RabbitMQ: One broker to queue them all | RabbitMQ RabbitMQ 与 Erlang 版本兼容关系​ 3.13.0 26.0 26.2.x The 3.13 release series is compatible with Erlang 26. OpenSSL 3 support in Erlang is considered to be mature and ready for…

告别冗长代码:Java Lambda 表达式如何简化你的编程

在现代软件开发中,高效和简洁的代码变得越来越重要。Java作为一门成熟而广泛使用的编程语言,一直在不断进化,以满足开发者的需求。Java 8的推出标志着一次重要的飞跃,其中最引人注目的特性之一便是Lambda表达式。 Lambda表达式为J…

Docker 进入指定容器内部(以Mysql为例)

文章目录 一、启动容器二、查看容器是否启动三、进入容器内部 一、启动容器 这个就不多说了 直接docker run… 二、查看容器是否启动 查看正在运行的容器 docker ps查看所有的容器 docker ps -a结果如下图所示: 三、进入容器内部 通过CONTAINER ID进入到容器…

linux命令别名与shell函数

# 修改网卡配置 alias vinetwork"vi /etc/sysconfig/network-scripts/ifcfg-ens33" 1. 方法和调用在同一个文件 # 定义shell函数,返回值通过$?获取 function say_hello(){ echo "hello shell" return 1 } # 使用shell函数 say_hello # 执行脚本后接收返…

zabbix-agent如何版本回退降低?

文章目录 1,查看zabbix-agent版本号2,查看zabbix-server的版本号3,卸载已有的zabbix-agent4,找到与zabbix-server匹配版本的zabbix-agent5,安装zabbix-agent 5.0.42版本6,查看已安装的zabbix-agent的版本号…

4秒惊艳!Stable Cascade AI绘画神器,设计师和普通用户的无限创意新选择

近日,一款AI绘画模型Stable Cascade发布。 只需输入一段描述文字,即可在4秒钟内获得令人惊艳的图像。 无论你是设计师、艺术家,还是普通用户,都能轻松上手,释放无限创意。 Stable Cascade不仅在使用上极具便捷性&am…

hot100_62不同路径

不同路径 题目思路、代码1.排列组合2.动态规划 题目 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” &#xff0…

如何提升推广链接辨识度与可信度?试试自定义链接后缀

各位大佬,咱今天来聊聊短信营销这个事儿。这可是好多企业都在用的营销手段啊,一条几分钱的短信,就能搭起用户和企业的桥梁,能增强粘性、促成交易或者推动复购,那真是高覆盖、低成本、高效率。 但现在问题来了&#xf…