咋玩抖音的我,前几天在抖音上发了一张图片,没想到竟然有1000多的播放量。
当然这个播放量不算高,甚至在抖音的体系里属于很低的,但是比我预料的可能只有个位数的播放量是高了不少。
这张图片是我用某国产 AI 软件生成的,本意是想表达“将士军前半死生,美人帐前犹歌舞”的意境。
AI 画出来之后,我感觉配色和意境还不错,就发到了抖音上。
这里想说的是,大概几个月前,我曾经尝试过该国产模型绘画的能力,当时的感觉只能说是乏味可陈。
可如今,经过了这几个月的迭代,模型输出图片的能力却让我眼前一亮。
比如下面这张,我随意输入了帮我画“一个小孩在河边玩耍,需要水墨画风格”。
意境和配色感觉都还不错。
再比如下面这张,输入:“古风美女,面若桃花、柳叶弯眉”。
结果也还不错,至少意境是达到了。
一连串试了好几个,AI 的表现基本可以给70分以上了,而且生成速度很快。
虽然画质和细节处理可能还比不上国外跟牛的大模型比如 MJ, 但是从国内大模型迭代的速度来看,我还是很看好的。
为什么大模型可以把一句话转换为图片呢?
我找到了一张图片可以解释这个问题。
这是 openai CLIP 模型的训练过程:左上是文本的输入,左下是图片的输入,
通过将文本输入和对应的图片输入相对比(在右侧的矩阵中找到文本和图像的相似性),从而找到文本编码后的矩阵和图片编码后的矩阵的映射关系。
从而在文本生成图片时,图片部分通过解码器,便找到了文本和图片特征空间的对应,也就完成了文本到图片的生成,当然这只是粗略的解释,细节还可以继续深究。
总的来说就是需要找到文本和图像在模型中的一套统一的特征表示,或者特征的映射关系。
也就是说,文本和图片,在模型中有个第三者,两种之间的转换通过这个第三者来完成。
之前听到过一些说法,说大模型创业公司很多都会死去,最终可能只会剩下一两个大模型。
尤其是光年之外濒临破产被美团收购之后,这样的说法更多。
公司倒闭死去很正常,试问有哪一年哪个行业不会有一批创业公司死去呢?
但是体验了一下 AI 绘画之后,更加坚信了一点:公司会死,但大模型不会。
希望国产大模型继续加油~