2023年人工智能的最新发展(下)

目录

1.MidJourney:

2.GAN:

3.Diffusion Model

4.DALLE、Disco Diffusion

5.Stable Diffusion 


1.MidJourney:

2023年3月,一组中国小情侣的照片在网络上迅速走红。这组照片看起来普通,就像一对小情侣的合影,但实际上这两个人并不存在,完全是由AI绘制出来的,对于不常关注科技的普通人来说,这可能有些震惊。

提到这组图片的背后,是一家名为MidJourney的科技公司,一家主张AI绘图不仅是现实世界的复刻,而是人类想象力延伸的公司。MidJourney是由专注于激光雷达和火星任务的科学家大卫·霍尔茨创立,公司规模小但营收预计超过2亿美元。他们在2023年3月推出了第五代AI绘图模型。更早之前,2022年9月,一位39岁的游戏设计师艾伦使用MidJourney完成的绘画作品“太空歌剧院”在美国科罗纳州博览会的艺术比赛中获得头奖,击败了众多人类艺术家的作品。这一事件在业界引起轰动,也引发了艺术家们的愤怒和对艺术未来的担忧。MidJourney在2022年底到2023年上半年间进行了四次重大更新。值得注意的是,MidJourney V5版本和OpenAI的GPT-4大模型几乎同时在2023年3月发布。同时,Adobe也在这个月推出了他们的图像AI工具Adobe Firefly。英伟达的CEO黄仁勋在3月的英伟达发布会上强调,“iPhone moment AI has started”。

在持续的新闻轰炸下,曾被质疑为泡沫的AI革命以百花齐放的方式强势回应了所有质疑。关于AI绘图模型,需要明确的一点是,它与生成语言的大模型(如GPT)完全不同。比起让AI学会听懂并说话,让AI理解并学会绘画实际上是更加困难的任务。毕竟,相比于人人都会说话并至少掌握一门语言,会画画的人要少得多。事实上,AI绘画长期以来一直是一个小众领域,因为其研究成本极高。在2012年,华裔人工智能科学家吴恩达和美国计算机科学家杰夫迪恩(均为Google的顶尖专家)进行了一项实验。他们利用深度自编码器这种深度神经网络技术,基于从平台收集的1000万张猫脸照片,在三天时间内生成了一张模糊的猫脸图片。尽管这只猫看起来像是刚从洗衣机里出来,但这个实验耗资100万美元,使用了1000台电脑和16000个CPU。这项实验显然成本高昂,对于资金不充裕的家庭来说,是不可承受的。然而,这个看似没有市场机会的实验实际上成为了AI绘画技术的起点。

2.GAN:

到了2014年,加拿大蒙特利尔大学的AI科学家伊恩古德费洛提出了生成对抗网络(GAN)。基于这项技术,AI首次能够创作出令人惊艳的图片,并能够改变图片的风格。比如,网上那些根据你的照片预测你老了的样子,或者将照片变成漫画风格的应用,都是基于GAN技术。

GAN由两个深度神经网络模型组成:一个是生成器,负责不断作图并交付给判别器;另一个是判别器,它像一个挑剔的客户,不断要求修改。这个过程可能会持续上万次,直到生成器无法继续改进,判别器也满足于结果,最终输出一张最终的图片。

尽管GAN技术使AI能够创作出相当不错的图片,但它存在几个核心问题,阻碍了它成为AI图像创作革命的主角。首先,它的运行非常耗费资源,容易导致个人电脑运行缓慢或卡顿。其次,GAN无法理解画面的细节,也就无法做出局部修改。此外,生成的图片分辨率也并不高。例如,人们在短视频平台上尝试将自己的照片转换成动画风格时,可能一开始觉得新奇,但很快就会发现转换后的图像并不真实,也无法传达原照片的意境。

到了2015年,图像识别技术取得了重大进步,其中最具代表性的应用是人脸识别技术。这项技术因为能够应用于智能门禁、闸机等场景而在国内外广受欢迎。图像识别技术的成熟意味着我们能够从图像中提取出精确的信息,并将其转换为文字。当时,一些科学家开始思考是否可以将这种技术反向应用,即输入文字描述信息给图像识别模型,让AI生成图像。尽管这些最初的生成图像只有32×32像素,质量并不高,但这标志着AI图像生成技术的新起点。

3.Diffusion Model

到了2016年,一种新型的AI模型开始流行,这大大提升了AI绘图的质量,并最终使得AI绘图技术走出实验室,进入大众视野。这种模型被称为扩散模型(Diffusion Model),其灵感来源于非平衡热力学,是物理学和计算机科学的结合产物。扩散模型的工作原理类似于墨水滴入水中的扩散过程,其中墨水代表指令中的创意。尽管墨水在水中的扩散过程是随机的,但可以通过手指或笔尖来引导墨水在水中形成特定的图形。AI在这个过程中扮演了引导者的角色,确保墨水沿着预期的路径扩散,并在这个过程中根据对用户意图的理解和对绘画的知识,不断补充信息,最终形成一幅完整的画面。如果用户对生成的图像不满意,可以继续引导扩散过程,直到得到满意的结果。这种过程被网友们称为“咒语修炼”。由于扩散过程本身始终是随机的,AI绘图有时会带来意想不到的惊喜。随着扩散模型技术的发展,AI绘图领域的可能性不断扩大。

4.DALLE、Disco Diffusion

在2021年1月,OpenAI发布了一款名为“DALLE”的AI绘画产品,灵感来源于著名画家萨尔瓦多·达利和动画角色WALL-E。这个产品结合了GPT-3的能力,允许用户通过文字提示来生成图片。尽管生成的画面还不够完美,但AI绘图技术迎来了质的飞跃。同年10月底,一款名为“Disco Diffusion”的开源文本生成图像工具诞生,为AI绘图产品的多样化发展奠定了基础。到了2022年,事情发展进一步加速。4月,OpenAI发布了DALLE 2,展示了前所未有的理解和创造能力,产生了大量超现实主义的画作。而在大家研究绘图技巧时,2023年9月,OpenAI在GPT-4的基础上推出了DALLE.3。这项技术在短短两年内取得了显著的进步。

5.Stable Diffusion 

2022年8月,位于伦敦的视觉艺术科技公司Stability AI发布并开源了“Stable Diffusion”,这是目前可用性最高的开源模型,可以免费使用并部署在个人电脑上。到了2023年,AI绘画彻底成为AI生成内容的重要领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/310302.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Hudi数据湖】hudi集成hive同步元数据

摘要 Spark/Flink可以使用Hive的metastore,但是Hive无法通过Hive metastore中的Spark/Flink表直接查询数据。为了解决这个问题,可以配置使用Hive sync。在Spark/Flink操作表的时候,自动同步Hive的元数据。这样就可以通过Hive查询Hudi表的内容…

leetcode动态规划问题总结 Python

目录 一、基础理论 二、例题 1. 青蛙跳台阶 2. 解密数字 3. 最长不含重复字符的子字符串 4. 连续子数组的最大和 5. 最长递增子序列 6. 最长回文字符串 7. 机器人路径条数 8. 礼物的最大价值 一、基础理论 动态规划其实是一种空间换时间的基于历史数据的递推算法&…

8.2、5GMEC认识篇

MEC:多接入边缘计算(Multi-access Edge Computing),强调的是边缘侧的计算服务。 MEC最大的好处是就近访问业务:MEC是一个资源池,可以部署各种服务器,把需要就近访问的业务部署在MEC的服务器上&a…

400G-哪个形式因素?(QSFP-DD, OSFP, CFP8)

400G收发器形式因素的发展趋势: 随着新技术的出现,采用新的形式因素和特点并不是什么新鲜事。400G时代即将到来,就像之前的技术周期一样,400G市场将针对特定的网络应用提供不同的收发器形式的因素。 下一代收发器外形因子有三个共同属性&am…

快速排序-排序算法

算法思想 快速排序采用的仍然是分治的思想。 Step1.每次在无序的序列中选取一个基准数。 Step2.然后将大于和小于基准数的元素分别放置于基准数两边。(前面部分的元素均小于或等于基准数,后面部分均大于或等于基准数) Step3.然后采用分治法&…

【大数据】NiFi 中的处理器(二):PutDatabaseRecord

NiFi 中的处理器(二):PutDatabaseRecord 1.基本介绍2.属性配置3.连接关系4.应用场景 1.基本介绍 PutDatabaseRecord 处理器使用指定的 RecordReader 从传入的流文件中读取(可能是多个,说数组也成)记录。这…

仿蓝奏云网盘 /file/list SQL注入漏洞复现

0x01 产品简介 仿蓝奏网盘是一种类似于百度网盘的文件存储和共享解决方案。它为用户提供了一个便捷的平台,可以上传、存储和分享各种类型的文件,方便用户在不同设备之间进行文件传输和访问。 0x02 漏洞概述 仿蓝奏云网盘 /file/list接口处存在SQL注入漏洞,登录后台的攻击…

启英泰伦离线自然说:让语音交互更“顺口”

你是不是也有这样的烦恼?每次用语音控制家里的智能设备,总是要说那几个固定的词,感觉有点别扭。比如,每次都要说“打开空调”,不能换个说法吗? 现在,有了启英泰伦的离线自然说技术,…

Kafka之集群搭建

1. 为什么要使用kafka集群 单机服务下,Kafka已经具备了非常高的性能。TPS能够达到百万级别。但是,在实际工作中使用时,单机搭建的Kafka会有很大的局限性。 ​ 消息太多,需要分开保存。Kafka是面向海量消息设计的,一个T…

QT第1天

题目&#xff1a;点击按钮改变文字 需要增加一个count属性&#xff0c;并且只需要定义槽&#xff0c;信号函数已经内置好了 //widget.h#ifndef WIDGET_H #define WIDGET_H#include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Wi…

一文搞定SkyWalking 中Trace、Tracesegment 和 Span 的关系,非常重要!

基础概念 追踪&#xff08;Trace&#xff09; 是指一个请求或者一个操作从开始到结束的完整路径。它涵盖了分布式系统中所有相关组件的调用关系和性能信息。 跨度&#xff08;Span&#xff09; 是Trace的组成部分之一。Span代表一次调用或操作的单个组件&#xff0c;可以是…

centOS系统yum安装和卸载mongodb

0.1 什么是mongodb&#xff1f; 0.2 Mongodb是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 0.3 Mongodb是一个介于关系数据库和非关系数据库之间的产品&#xff0c;是非关系数据库当中功能最丰富&#xff0c;最像关系数据…

C# 关于多态性学习

前言 我相信大家都对面向对象的三个特征封装、继承、多态很熟悉&#xff0c;每个人都能说上一两句&#xff0c;但是大多数都仅仅是知道这些是什么&#xff0c;今天这篇文章是对C# 的多态性学习一下&#xff0c;巩固自己的基础&#xff0c;我们都知道同一操作作用于不同的对象&…

模板管理支持批量操作,DataEase开源数据可视化分析平台v2.2.0发布

2024年1月8日&#xff0c;DataEase开源数据可视化分析平台正式发布v2.2.0版本。 这一版本的功能升级包括&#xff1a;在“模板管理”页面中&#xff0c;用户可以通过模板管理的批量操作功能&#xff0c;对已有模板进行快速重新分类、删除等维护操作&#xff1b;数据大屏中&…

【UE Niagara学习笔记】06 - 制作火焰喷射过程中飞舞的火星

在上一篇博客&#xff08;【UE Niagara学习笔记】05 - 喷射火焰顶部的蓝色火焰&#xff09;的基础上继续实现喷射火焰的火星的效果。 目录 效果 步骤 一、创建材质实例 二、添加新的发射器 2.1 设置粒子材质 2.2 设置发射器持续生成粒子 2.3 设置粒子生成数量 2.4 设…

【麒麟V10系统x86环境--bash: ./install:/bin/bash:解释器错误: 权限不够】

不知道那位大拿分享的这个神操作、给力呀 标题-bash: ./install&#xff1a;/bin/bash&#xff1a;解释器错误: 权限不够 执行这个命令即可&#xff1b;sudo setstatus Softmode

【现代密码学】笔记3.4-3.7--构造安全加密方案、CPA安全、CCA安全 《introduction to modern cryphtography》

【现代密码学】笔记3.4-3.7--构造安全加密方案、CPA安全、CCA安全 《introduction to modern cryphtography》 写在最前面私钥加密与伪随机性 第二部分流加密与CPA多重加密 CPA安全加密方案CPA安全实验、预言机访问&#xff08;oracle access&#xff09; 操作模式伪随机函数PR…

自动化控制面板-1Panel

一、1Panel自动化控制面板 官网地址 1Panel 可以实现&#xff1a; 快速建站、高效管理、安全可靠、一键备份、应用商店 快速建站&#xff1a;深度集成 Wordpress 和 Halo&#xff0c;域名绑定、SSL 证书配置等一键搞定&#xff1b;高效管理&#xff1a;通过 Web 端轻松管理 …

构建数字化美食未来:深入了解连锁餐饮系统的技术实现

在当今数字化时代&#xff0c;连锁餐饮系统的设计与开发已成为餐饮业成功经营的重要一环。本文将深入研究连锁餐饮系统的技术实现&#xff0c;结合代码演示&#xff0c;为技术开发者和餐饮业者提供深刻的理解。 1. 技术选型与系统架构 在开始设计开发前&#xff0c;首先要考…

SD卡无法格式化怎么解决?

如何修复无法格式化的SD卡&#xff1f; 提供了4种SD卡无法格式化的解决方法&#xff0c;你可根据具体情况和需要选择合适的方法。 方法1. 更改驱动器号 有时&#xff0c;SD卡无法格式化是因为SD卡无法访问 。为了确保你的Windows操作系统能够识别并显示你的SD卡&#xff0c;…