每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。
在今天这个喜欢拍照比喜欢呼吸还勤快的时代,大家都想在手机上玩出点新花样。别急,有个新鲜玩意儿叫“MobileDiffusion”,可能会让你的朋友圈瞬间高大上起来。
首先,不得不说,那些能把文字变成图片的大脑洞模型,真是太神奇了。不过,它们像是那种需要喝特制能量饮料才能启动的怪兽电脑或者服务器才能跑起来。比如“稳定扩散”(Stable Diffusion)、DALL·E和Imagen这些大佬,它们的模型参数多到可以装满好几个图书馆,想要轻松运行?门都没有。
然而,随着科技的进步,Android的MediaPipe和iOS的Core ML这对好基友在过去一年里已经在手机上做了不少魔法。但想要实现那种秒生成图片的梦想?还差得远呢。
于是乎,有人站了出来,提出了一个让手机也能快速从文本生成图片的方案,名字叫做“MobileDiffusion”。这不是你平常用的那种APP,它是一个专为手机设计的轻量级扩散模型。用了一种叫DiffusionGAN的黑科技,在推理过程中实现一步采样,相当于给预训练的模型加了个GAN来模拟去噪步骤。测试结果如何?在iOS和Android的高端设备上跑起来,半秒钟就能生成一个512x512的高质量图片,而且模型只有520M参数,小巧得很。
好,接下来让我们深入一点。原来那些文字到图片的模型之所以慢,主要是因为两个原因:一是它们需要多次迭代去噪来生成图片,二是复杂的网络架构让模型参数爆炸。尽管在手机上部署这种模型能极大提升用户体验,解决隐私问题,但现实是残酷的,这方面的研究还很少。
为了解决这个问题,人们研究如何优化模型的推理效率,尤其是减少函数评估次数(NFE)。通过使用先进的数值求解器或蒸馏技术,已经能把采样步骤大大减少,甚至减到只需要一步。
但在手机上,由于模型架构的复杂性,即使评估步骤减少了,运行速度仍然很慢。目前,针对文字到图片扩散模型的架构效率的研究还不够。只有少数研究涉及到这个问题,比如移除神经网络中冗余的模块,但这些努力还不足以提供一个全面的设计高效架构的指南。
“MobileDiffusion”的设计基于潜在扩散模型,包括文本编码器、扩散UNet和图像解码器三个部分。其中文本编码器使用了体积小巧的CLIP-ViT/L14模型,适合手机使用。而在扩散UNet和图像解码器方面也做了优化。
总之,“MobileDiffusion”通过精简模型结构和采用DiffusionGAN一步采样技术,实现了在手机上快速从文本生成图片的目标,开启了一扇新的大门,让手机用户也能享受到即时生成高质量图片的乐趣。而且,这技术还是遵循谷歌的负责任AI实践的,所以用起来也挺放心。
具体请去看 https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html