生成式
AI
进入应用爆发期,将极大地推动数字化内容生产与创造。
摘要
生成式
AI
(
Generative AI
或
AIGC
)
是利用现有文本、音频文件或图像创建
新内容的技术。过去一年,其技术上的
进展主要来自于三大领域:图像生成领
域, 以
DALL·E-2
、
Stable Diffusion
为
代表的扩散模型(
Diffusion Model
);
自然语言处理(
NLP
)领域基于
GPT-3.5
的
ChatGPT
;代码生成领域基于
Codex
的
Copilot
。 现阶段的生成式
AI
通常被
用来生成产品原型或初稿,应用场景涵
盖图文创作、代码生成、游戏、广告、
艺术平面设计等。未来,生成式
AI
将成
为一项大众化的基础技术,极大的提高
数字化内容的丰富度、创造性与生产效
率,其应用边界也将随着技术的进步与
成本的降低扩展到更多领域。
趋势十
生
成式
AI
使用各种机器学习算法,
从数据中学习要素,使机器能够创
建全新的数字视频、图像、文本、音频或
代码等内容。它创建出的内容与训练数据
保持相似,而非复制。它的发展得益于近
年来大模型在基础研究尤其是深度学习上
的突破,真实数据的积累和计算成本的下
降。在过去的这一年,生成式
AI
将人工智
能的价值聚焦到“创造”二字,这标志着人
工智能开始具备定义和呈现新事物的能力。
过去一年,生成式
AI
的进展主要体
现在如下领域:
图像生成领域的进展来自扩散模型
(
Diffusion model
) 的 应 用, 以
DALL·
E-2
、
Stable Diffusion
为代表。扩散模型
是一种从噪声中生成图像的深度学习技术。
扩散模型技术的背后,是更精准理解人类
语义的预训练模型、以及文本与图像统一
表示模型(
CLIP
)的支撑。它的出现,让
图像生成变得更具想象力。
自然语言处理(
NLP
)领域的进展来
自于基于
GPT3.5
的
ChatGPT
(
Generative
Pre-trained Transformer
)。这是一种基于
互联网可用数据训练的文本生成深度学习
模型,用于问答、文本摘要生成、机器翻
译、分类、代码生成和对话
AI
。得益于文
本和代码相结合的预训练大模型的发展,
ChatGPT
引入了人工标注数据和强化学习
(
RLHF
)来进行持续训练和优化。加入强
化学习后,大模型能够理解人类的指令以
及背后的含义,根据人类反馈来判断答案
的质量,给出可解释的答案,并对于不合
适的问题给出合理的回复,形成一个可迭
代反馈的闭环。
代码生成领域的进展来自代码生成系
统
AlphaCode
和
Copilot
。
2022
年
2
月,
Deepmind
推出了他们的最新研究成果
AlphaCode
。它是一个可以自主编程的系
统,在
Codeforces
举办的编程竞赛中,超
过了
47%
的人类工程师。这标志着
AI
代
码生成系统,首次在编程竞赛中,达到了
具有竞争力的水平。 基于开源代码训练的
Copilot
开始商业化,作为订阅服务提供给
开发者,用户可以通过使用
Copilot
自动补
全代码。
Copilot
作为一个基于大型语言模
型的系统,尽管在多数情况下仍需要人工
二次修正,但在简单、重复性的代码生成上,
将帮助开发者提升工作效率,并给
IDE
(集
成开发环境)行业带来重大影响。
随着内容创造的爆发式增长,如何做
到内容在质量和语义上的可控,成为可控
式生成,将是生成式
AI
面临的主要挑战。
在产业化方面,降成本仍是关键挑战。只
有像
ChatGPT
这样的大模型训练成本和推
理成本足够低,才有可能规模化推广。此外,
数据的安全可控、创作版权和信任问题也
需要随着产业化加快逐一解决。
未来三年,生成式
AI
将步入技术产品
化的快车道,在商业模式上会有更多探索,
产业生态也会随着应用的普及逐步完善。届
时,生成式
AI
的内容创造能力将达到人类
水平。拥有数据、计算能力、产品化经验的
大型科技公司将成为生成式
AI
落地的主要
参与者。基于生成模型的计算基础设施和平
台会逐步发展起来,模型变成随手可得的服
务,客户不需要部署和运行生成式模型的专
业技能就可以使用。生成模型将在交互能力、
安全可信、认知智能上取得显著进展,以辅
助人类完成各类创造性工作。