生成式人工智能(AIGC)之最全详解图解
- 1. AIGC的发展历程
- 1.1 AIGC演化重要时间节点
- AIGC发展历程图
- OpenAI大语言模型发展进程
- 1.2技术推进路线
- 2.AIGC技术场景
- 2.1 技术场景
- 3.1AIGC相关应用
- 4.AIGC未来发展前景
1. AIGC的发展历程
AIGC(AI-Generated Content)是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
1.1 AIGC演化重要时间节点
AIGC发展历程图
图片来源于网络
OpenAI大语言模型发展进程
AIGC绘画模型 | 发布时间以及影响意义 |
---|---|
对抗生成网络(GAN) | 2014年 真正“教会”AI自己绘画 |
扩散模型(Diffusion Model) | 2020年 大幅提升AI绘画水平 |
stable Diffusion | 2022年 推动AI绘画商业化发展 |
1.2技术推进路线
生成模型在人工智能领域有着悠久的历史,可以追溯到1950年代,随着隐马尔可夫模型(HMM)和高斯混合模型(GMM)的发展。这些模型生成了语音和时间序列等顺序数据。然而,直到深度学习的出现,生成模型的性能才有了显著的提高。在深度生成模型的早期,不同的领域通常没有太多重叠。在自然语言处理(NLP)中,生成句子的传统方法是使用N-gram语言建模学习单词分布,然后搜索最佳序列。但是,这种方法不能有效地适应长句。为了解决这个问题,后来引入了递归神经网络(RNNs)用于语言建模任务,允许对相对较长的依赖性进行建模。随后开发了长短期记忆(LSTM)和门控循环单元(GRU),它们利用门控机制在训练过程中控制记忆。这些方法能够在一个样本中处理大约200个标记,与N-gram语言模型相比,这标志着一个显著的改进。同时,在计算机视觉(CV)中,在基于深度学习的方法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法是以手工设计为基础的功能,并且是有限的,可以生成复杂多样的图像。2014年,生成对抗网络(Generative Adversarial Networks,简称GAN)首次被提出,这是该领域的一个重要里程碑,因为它在各种应用中取得了令人瞩目的成果。变分自编码器(VAE)和其他方法(如扩散生成模型)也被开发出来,用于对图像生成过程进行更精细的控制,并能够生成高质量的图像。
2017 年,Vaswani 等人为 NLP 任务引入了 Transformer,后来被应用于 CV,然后成为各个领域中许多生成模型的主要骨干 。在 NLP 领域,许多著名的大型语言模型,例如 BERT 和 GPT,都采用 transformer 架构作为其主要构建块,与以前的构建块(即 LSTM 和 GRU)相比具有优势。在CV中,Vision Transformer(ViT)和Swin Transformer后来通过将Transformer 架构与视觉组件相结合,进一步发展了这一概念,使其能够应用于基于图像的下游。除了变压器为单个模态带来的改进外,这种交集还使来自不同领域的模型能够融合在一起,以实现多模态任务。多模态模型的一个例子是CLIP。CLIP是一个联合视觉语言模型,它将Transformer架构与视觉组件相结合,使其能够根据大量的文本和图像数据进行训练。由于它在预训练期间结合了视觉和语言知识,因此它还可以用作多模态提示生成中的图像编码器。总之,基于 Transformer 的模型的出现彻底改变了 AI 的生成,并导致了大规模训练的可能性。近年来,研究人员也开始引入基于这些模型的新技术。例如,在NLP中,人们有时更喜欢小样本提示,而不是微调,这是指在提示中包括从数据集中选择的几个示例,以帮助模型更好地理解任务需求。在视觉语言中,研究人员经常结合具有自监督对比学习目标的模态特定模型,以提供更强大的表示。未来,随着AIGC的重要性日益凸显,将引入越来越多的技术,为这一领域注入活力。
2.AIGC技术场景
2.1 技术场景
可以将AIGC相关技术场景拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理。
2.3.1 文本处理
目前,文本处理是AIGC相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。
2.3.2 音频处理
此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。
2.3.3 图片处理
图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。
2.3.4 视频处理
随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。
AI绘画应用Midjourney绘制的《太空歌剧院》
大语言模型ChatGPT
(以上图片来自于网络)
3.1AIGC相关应用
AIGC是AI Generated Content的缩写,指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,拉开了智能创作时代的序幕。
在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例,向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。
趋势判断:人工智能产业经过多年发展,技术实现将从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。
- AIGC细分市场分析
3.1 AIGC+资讯行业
在信息化时代,社会中充斥着各种资讯,同时这些资讯也有高标准、需求大、时效强等特点。自2014年起,AIGC已开始用于新闻资讯领域,因此资讯行业是AIGC商业化相对成熟的赛道。
3.1.1 AIGC辅助信息收集,打造坚实基础
优质的新闻产出必定需要全面、高效、准确的信息收集与整理的基础上。按照传统的作业模式,工作人员需要亲临现场,通过各种手段才能获得足够且扎实的信息。现在的AI已经能对该环节高效赋能,例如科大讯飞的AI转写工具可以帮助记者实时生成文稿,自动撰写提纲、精简语句等,进而提高工作效率,保证最终产出的时效性。
除帮助获取一手信息外,AI也可以帮助精确检索二手信息,收集素材。在高性能的AIGC工具如ChatGPT出现后,就可以像常人对话一样直接提问并获得答案。虽然难免还是会有这样那样的问题,但作为工具而言,AIGC的意义已经非常明显了。
3.1.2 AIGC支持资讯生成,实现高效产出
在资讯写作等生成环节,基于自然语言生成和自然语言处理技术,AIGC已经逐步得到从业者和消费者的认可,因此有不少企业积极参与其中。以产出数量为例,与美联社、雅虎等外媒合作的Automated Insights,其撰稿工具Wordsmith能在一分钟内生成两千条新闻,且单条质量可比拟人类半小时的作品质量。
除了速度惊人,AI在准确度方面同样优势明显,能够很好的避免人类的粗心或计算等错误,在保证质量的同时减轻人类工作压力。这方面国内企业颇多,如新华社自研的写稿AI“快笔小新”、腾讯公司开发的Dream Writer、百度公司和人民网合作开发的“人民网-百度·文心”大模型都是其中的佼佼者。
3.1.3 AIGC助力内容分发,缓解人类压力
在内容分发环节,AI除了常见的个性化内容推荐外,也在逐步开拓全新应用场景,如虚拟人主播,以视频或直播的形式发放内容,打造沉浸式体验。如新华社数字记者“小诤”、央视网虚拟主播“小C”、阿里巴巴数字人“冬冬”、百度智能云AI手语主播等等,在未来,AI虚拟主播可能发展成媒体行业的标配。
3.2 AIGC+电商行业
自网络电商出现以来,社会的很多方面都被改变了,电商企业既是网络时代的受益者,也在推动社会发展进程中扮演关键角色。自十年前网络直播出现,带动带货模式变革以来,各大企业都在或多或少的面临转型问题。在数字世界和物理世界快速融合的当下,AIGC走在时代前沿,可以赋能电商行业的多个领域,可能带来新一轮的行业变革。
3.2.1 AIGC助力商品建模,改善购物体验
对比传统的购物模式,网购的一个典型问题在于只能通过图片了解商品,难以观察到全貌,也让以次充好的不法商家有机可乘。而AIGC技术可以通过视觉算法生成商品的三维模型,提供多方位视觉体验,节省沟通成本,改善用户体验,促成用户成交与转化。
除了三维建模,AIGC还有更高级的应用方式,如阿里巴巴的每平每屋业务就利用AIGC技术,实现线上“商品放家中”的模拟展示效果。这种业务是将AIGC功能植入手机淘宝和每平每屋APP端,用户用手机扫描家居环境让AI生成商品模型,在手机即可预览实物效果,进而改善电商家居的购物体验。
3.2.2 AIGC赋能服饰电商,助力降本增效
AIGC可以为商家提供大量创意素材,电商广告正是对创意营销素材需求量很大的领域,阿里巴巴的AI设计师“鲁班”就是应用于此。除了通用型广告,AIGC在电商服饰领域用途更多。一般说来,服饰领域都采用“小单快返”的模式,即先小批量生产多种样式的服饰产品投入市场,快速获取市场反馈,对优质产品加大投入,在试出爆款的同时减小库存压力。但这种方式对产品图片的需求量很大,如果有上千种服饰产品分别找模特再牌照修图,无疑会耗费极大的时间和成本。
成立于2020年的ZMO公司就运用AIGC解决这个问题,商家只需在ZMO平台上传产品图和模特图就可以得到展示图。借助AIGC,更多服饰相关的市场策略都可以低成本的实现。即使没有专业模特,虚拟人模特及广告也可以发挥作用,甚至还可以调整虚拟人的相貌来适配不同风格的服饰。
3.2.3 AIGC打造虚拟主播,提升直播效率
随着概念的传播,虚拟主播正日益成为许多商家的选择。与真人主播不同,虚拟主播可以全天无间断的直播,突破时间和空间的限制。2022年2月28日,经典美妆超级品类日活动开启时,京东美妆虚拟主播“小美”就出现在兰蔻、欧莱雅、OLAY等超过二十个美妆大牌直播间,开启直播首秀。虚拟人不仅五官形象由AI合成,嘴型也可以利用AI精确匹配台词,动作灵活且流畅,营造出极佳的真实感,为用户带来与真人无异的体验。
不过目前的虚拟主播更多的是与真人主播形成互补,或者为没有直播能力的的商家提供服务,还不能完全替代真人。虚拟主播要获得更强的交互能力,更好的与观众互动,做出实时反馈,还需要AIGC相关技术的后续发展。
3.3 AIGC+影视行业
随着虚拟技术的逐步到来,对影视内容的需求也在爆发式增长。为了满足观众日益刁钻的口味和挑剔的眼光,影视行业正全力提高产量,迭代技术,导致整个行业的工业化程度逐渐提高,同时变得精细且复杂,同时人的局限性也逐渐凸显。AI的应用无疑可以降本增效,让行业回归本真。
3.3.1 AIGC协助剧本创作,释放创意潜力
通过对海量优质剧本的学习,AI能根据特定需求快速生成不同风格或架构的剧本,在极大提高工作者工作效率的同时,AI也在激发创意,帮助产出更优质的作品。事实上,将AI引入剧本创作的做法早已有之。2016年,纽约大学研发的AI在学习了几十部经典科幻电影剧本后成功编写了剧本《阳春》以及一段配乐歌词。经过修改、调整后的成品只有区区八分钟,内容也平平无奇,但《阳春》在各大视频网站最终收获的百万级播放量依然证明外界对AI创作的兴趣很大。2020年,GPT-3被用于创作一个短剧,再次引发广泛关注。
通过这些早期试验可以看出AI在剧本创作方面的潜力,但要真正将其转化为生产力,还要AI更贴合具体的应用场景,做针对性训练,并结合实际业务需求开发或定制功能。海外一些影视公司如Final Write和Logline等都偏向垂直式工具,国内的海马轻帆公司深耕中文剧本、小说、IP等领域,也已经收获百万级用户。
3.3.2 AIGC推动创意落地,突破表达瓶颈
虽然AI能帮助人类更好的释放创意,但从剧本到荧幕仍是一段漫长的距离。从创意到表达的跨越,AI可以保驾护航,帮助人类化不可能为可能。举例来说,当前劳动密集型的影视生产方式难以满足观众对质量日益提高的要求。2009年上映的《阿凡达》令全球观众首次了解3D电影的魅力,此后沉浸式观影体验成了影视产业链上共同的追求。为了满足这种追求,影视特技与应用呈现井喷式发展,但后期制作与渲染,复杂程度也都水涨船高,传统的作业方式已经难以为继,而AI技术就有推动变革的潜力。
从技术角度来说,影视特技行业的作业流程是极为繁琐的,比如场景中的建模就需要从一草一木、一人一物开始,逐渐打造世界的雏形,再通过骨骼绑定和动作设计让模型活起来,之后的定分镜、调灯光、铺轨道、取镜头等等无不费时费力,后期的解算和渲染等工作同样如此。可以说在影视工作的每个环节都有大量重复性工作或等待时间,无形中拖慢了工作节奏。因此现在就有企业致力于解封流程生产力,比如优酷的“妙叹”工具箱,在动漫中实时渲染,帮助工作者实时把握效果或做出修改,节省了大量成本,减轻人员负担,目前已被多家国漫企业采用。
3.4 AIGC+教育行业
技术的飞速发展也将为教育行业带来颠覆,但是相比其他行业的快速发展,AI在教育中的落地部署似乎也慢了半拍。这其实是由教育行业本身的性质导致的,它的参与者众多,时间跨度很大,个体的差异性也很大,这让解决边界清晰、定义明确的AI难以适应。另外教育更注重人与人的互动和联结,也没有统一的理论模型,这都为相关AI的开发训练和落地部署增加了难度。但AI在教育行业绝非毫无用处,以技术手段推动行业进步也并非痴人说梦。
3.4.1 AIGC助力学习者,走向无限
生活经验告诉我们,从降生起人类就开始通过各种手段建立对世界的认识。识字前的手摸嘴咬、拳打脚踢,识字后的课本习题、书籍影视、实地体验等等无不如此。但是不论怎样,每个人的学习过程总会遇到这样那样的阻碍,而AI对学习者的意义就在于尽量摆脱种种束缚,最终从有限的自身走向无限的世界。
互联网时代的教育,是将部分内容转化为数字化形式并公开分发,助力资源流转。现在由AI辅助甚至主导的制作,整理学习资料,降本增效是显而易见的,资源的丰富度和易用性都将提升到新的高度。AIGC也可以在一些特定领域,如儿童绘本等,加速知识的生产效率并接入网络,最终提供给用户。通过补充有限的学习资源将促进教育公平,AI也助力教育资源的生产与分发。微软在这一领域就布局颇多,如微软亚洲研究院与华东师范大学合作研发的中文写作智能辅导系统“小花狮”,借助自然语言处理技术,实时为学生作文评分并分析原因,从而帮助学生进步。
3.4.2 AIGC赋能教育者,减负提效
老话说“师傅领进门,修行在个人”,教育者作为领路人的重要性不言而喻,对他们而言,AI就如同手上的火把,更好的帮助学习者引燃心中的学习火种。从目前的社会发展现状来看,教育者数量不足将会是长期现象,一位老师带几十位学生的“大班制”还将长期存在,在各种琐碎的答疑解惑,书山题海中奔波,AIGC就可以解决此类问题。现在作业/试卷自动批阅技术已经获得了广泛应用,AI不但可以判断对错,还可以生成针对性的评语,教师的作业批改用时大幅节约,可以更关注学生的个性化发展。除了助力解决重复性问题,AI还可以延伸感知。如基于电脑视觉技术,AI可以实时分析学生当前的情绪和状态等,帮助教师更好的了解情况。
通过对教育者的赋能,AIGC最终可以帮助实现教育的终极理想:因材施教,推广个性化教育。尽管AI还有可能加剧信息茧房的风险,以及对传统理念的挑战,甚至将人机器化,但就目前来看,未来还是值得期待的,以人为本的教育还是可能实现的。
3.5 AIGC+医疗行业
对医患双方而言,AIGC的应用与推广都是福音,比如AI预问诊的应用。虽然病人与病情千变万化,但总是有重复的地方,因此在预问诊阶段,AI就可以先了解患者的既往情况,让医生的诊断更有针对性,既缓解了医生的工作压力,也更好的服务了患者,医院内病人扎堆排队的现象也得以分流,可以说是一举三得。2021年,复旦大学附属眼耳鼻喉科医院与腾讯医疗健康签署合作协议,全面打造数字化医院新标杆、新范式,深入推进医院数字化转型,在预问诊等业务上快速落地部署。
对于传统医学的难点:心理疾病领域,AI同样可以参与其中。相较于过去的与人对话,AIGC聊天机器人只是个软件程序,用户不必担心隐私被泄露,况且还可以预置海量数据或知识模型,可以在更新迭代中保持冷静与中立。成立于2021年的聆心智能就是这方面的代表,基于生成式大模型开发的情绪疗愈机器人Emohaa,可以构建以生成对话为核心的交互式数字诊疗方案,通过对话与患者共情,及时提供情绪支持与心理疏导,促进患者心理健康。
3.6 AIGC+金融行业
金融业天然与数据和信息密切相关,各类公司都要从繁复的市场上搜集信息,并加以利用,创造价值。基于这样的现状,金融行业的信息化一直走在其他行业之前,具备数据质量好、维度全、场景多等特点,因此也成为了AI最早落地的商业化场景之一。
一般说来,AI在金融行业最常见的应用是通过机器视觉和学习的方式捕捉市场的实时变化,并利用实时数据进行分析,以此提高金融公司的财务分析效率与能力。类似的,AIGC在金融行业的应用则是以智能客服和智能顾问两种,基于自然语言处理技术与客户互动,此外还可以快速高效地完成一些人工难以完成的任务,改善服务体验。2017年4月,富国银行开始试点一款基于Facebook Messenger平台的智能客服,美国银行很快也推出了类似的智能助手Erica。国内金融行业的相关产业应用也较为成熟,多家公司或商业银行都推出过自己的AI业务,如2022年工商银行的“工小智”,邮储银行的半年报显示数字化转型成绩斐然,这些都表明AIGC应用于金融行业的巨大潜力。
4.AIGC未来发展前景
未完持续…