AIGC文生图及工具产品简介

AIGC,全称是人工智能生成内容(Artificial Intelligence Generated Content)是继UGC(用户生成内容),PGC(平台生成内容)后,利用人工智能技术,自动生成内容的生产方式;
目前主要利用&集成自然语言处理、计算机视觉、语音生成等算法训练生成式大模型,且已经从纯文本生成、纯图像生成拓展到了跨模态的内容理解与生成,促进了更接近普通人定义的“智慧”的加速涌现。

目前商业项目的美术现在的流程一般是MJ起手做概念扩展,定型后用lora练自己的风格或角色,然后SD+controlnet量产。

目前市场上的主要产品:

TIPS:

  • 开源平台比如StableDiffusion的话可以先用GPT生成更细致准确的prompt语句,然后跟AI绘画串联使用,大部分商用平台已经集成了用户语言->模型提示语的这一步,对prompt要求不那么敏感;Midjourney精准词汇总结 - 设计经验 - 素材集市
  • 对于普通用户基本足够,专业需求比如生成logo、海报、广告等依然需要设计师精修,且大部分平台同时支持以图生图(图像编辑);
  • 已有较多设计师/原画师采用AI绘图进行辅助,应用在了logo设计、儿童读物的插图、新闻通讯的艺术图、游戏的概念艺术和角色图等方面,注意自己的套餐是否支持商业用途使用

一些常用概念:

Midjourney

  • 定位:Midjourney是一款AI绘画工具,搭载在Discord社区上,目前在discord上有着较为活跃的用户群体,交互体验较好,新用户免费试用次数25次(刷新小图、重做、优化都会消耗),付费基础版本10刀/月,年用户8刀/月。
  • 注册:需要先下载并注册discord(聊天软件,起家是游戏聊天应用与社区,类似美版YY语音,21年被微软收购,需要挂Seal全局),搜索MidjourneyBot,加载/创建服务器,授权验证,在机器人聊天框中输入【/imagine + 你的prompt语句】进行生成。

小红书-midjourney使用教程

DALL-E2

  • 定位:OpenAI推出的文本生成图像系统https://openai.com/product/dall-e-2
  • 方法:一种层级式的基于CLIP特征的根据文本生成图像模型,在图像生成时,先生成64*64再生成256*256,最终生成更精美的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像,可以看做CLIP的反向过程,因此DALLE·2被作者称为unCLIP。

Stable Diffusion 

原论文,直译过来就是“扩散模型 ,公式推导如下:

Stable Diffusion是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提Stable Diffusion就能生成符合你要求的逼真的图像

Stable Diffusion WebUI

  • 定位:一个基于 Stable Diffusion 的基础应用,利用 gradio 模块搭建出交互程序,后端依旧是Stable Diffusion以及一系列相关的工具包,提供了txt2img、img2img、inpaint 等多种功能,还包含了许多模型融合改进、图片质量修复等附加升级。贵在开源,可以在上面训练我们自己的模型,或者在社区里下载别人的模型。
  • 使用:目前提到SD更多是指这套开源框架,大家一般在模型分享站下载模型,原生的模型效果并不好。SD搭建后可以安装插件,加载controlnet、lora等拓展功能。
    • Git clone 项目地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui
    • 模型下载:https://huggingface.co/runwayml/stable-diffusion-v1-5 【这是基础的SD1-5版本,可以用来ft】
    • 详细教程:https://zhuanlan.zhihu.com/p/63

LoRA(定向生成)

LoRA的算法原理简单理解就是外挂一个由少量图片定制训练的小模型,去影响原本的生成大模型;一般用来做角色或画风,比如给若干张类似的图(特朗普), 然后生成的时候都是他。

LoRA本身是Low-Rank Adaption of large language model的缩写,这个方法是一种大语言模型fine-tune的方法。主要思路是在固定大网络的参数,并训练某些层。

外挂一个LoRA小模型(可以在HuggingFace上下载),并设置权重参数,用<>加在prompt语句中即可触发,例如<lora:koreanDollLikeness_v10:0.66>,这样用少量prompt描述语句就可以得到更定向的结果,减少微调。

ControlNet插件

现在的 AI 绘画技术主要采用了一种名为扩散模型的方法,这种方法能够使生成的图片呈现出独特且富有趣味性的效果。然而,这种方法也存在一个显著的问题,那就是生成的图片可控性非常差。在某些情况下,生成的图片可能会非常精美,而在其他时候,效果却可能不尽如人意。这使得设计师在使用此类工具时,很难确保能够满足客户的具体需求。

然而,随着一种名为 ControlNet 的新技术的出现,这一局面得到了改善。ControlNet 能够帮助设计师更好地控制 AI 绘画过程,从而使这个工具更加符合他们的实际工作需求。AI 绘画不再仅仅是一个供人们娱乐的小玩具,而是逐渐发展成为一种能够真正帮助设计师提高工作效率的实用工具。虽然目前 ControlNet 的可控性仍然有待提高,但与之前的技术相比,它已经实现了质的飞跃。

Controlnet 插件的本质是利用图像作为输入信息的方式,以弥补语言在某些情况下的局限性。相对于语言而言,图像更加直观、简洁、易于理解,能够更加准确地传达信息。因此,Controlnet 利用图像作为输入方式,可以更好地帮助 AI 理解我们的需求,从而生成我们所需要的图片。

在图片中,包含了多种信息,例如线条轮廓、表面凹凸等。Controlnet 插件的工作原理是使用特定的模型提取出特定的图像信息,然后将其输入给 AI,引导 AI 生成图片。

总的来说,我们可以将使用图片作为提示词视为补充语言的方式。这里补充一下,在文生图和图生图中用 controlnet 插件的区别,一句话说明白,需要生成新的图片用文生图,在原有图片上优化使用图生图。

其它产品:文心一格、字节豆包

百度文心一格

  • 定位:百度依托飞桨、文心大模型推出的“AI 作画”产品。
  • 注册:百度账号即可https://yige.baidu.com/。
  • 注意:由于各种风险控制,百度的关键词屏蔽非常多,一旦设计敏感词汇就生成不成功。
  • 商业化:有应用场景跳转链接,付费定制马克杯、手机壳、帆布袋等相关产品,价格不贵容易产生消费欲望。

字节豆包

  • 体验链接:https://www.doubao.com/
  • 定位:字节跳动推出的对标ChatGPT的产品,目前免费且无需排队;有语音功能,哄娃讲故事一把好手,用来学英语也非常方便;图片生成上相对比较小白,直接描述想要的图片画面就行,会有相关提示进一步细化描述;最近,字节的BuboGPT的多模态大模型也在huggingface上推出了Demo,预测之后也会在豆包上集成多模态大模型的功能,支持图文交互内容理解。
  • 注册:网页版、安卓版和iOS版同步上线,用抖音账号、手机号和苹果账号都能登录。

SD 的学习曲线。

  1. 先学最基础的,大概理解参数模型提示词的用途,先把 SD 的流程跑通,这一步大概可以做出来相对看得过去的图了
  2. 然后再去研究模型和提示词的高级用法,比如,混用 lora 模型,提示词的分步和融合写法,这个时候,必然会涉及到一些原理性的东西,就会理解为什么 AI 画不好手了。到这一步,可以对图进行针对性的优化了,比如说一个图怎么达不到提示词想要的效果,可以针对性地优化提示词。
  3. 学习其他功能,图生图,Control net 插件,以及分层控制 Lora 模型等进阶功能。
  4. 训练自己的模型

还没有安装Stable Diffusion 软件的朋友可以网上自己找安装一下,或者看本人往期的详细安装教程,安装包:https://item.taobao.com/item.htm?ft=t&id=720790767379这个0.1元的网上很多

civitai网站(C站)的模型打包下载:https://item.taobao.com/item.htm?ft=t&id=722030250111

对于没有魔法工具的人来说,直接下载完整的模型包是比较划算的,因为C站上很多早期的作品都下架了,现在再去找,很多优秀作品都没法找到

AI绘画(文生图)应用分享 - 知乎

https://zhuanlan.zhihu.com/p/620578593

https://www.cnblogs.com/zackstang/p/17324331.html 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197571.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++初阶--String类的使用

string类 在C语言中&#xff0c;我们总是用char* 的类型来创建一个变量&#xff0c;存储一个字符串&#xff1b;当我们想对它进行修改或者读写时&#xff0c;需要自我创建空间和使用string.h的库函数来进行操作它&#xff1b; 而在C中&#xff0c;C专门提供了一个头文件 stri…

Vue2问题:如何全局使用less和sass变量?

前端功能问题系列文章&#xff0c;点击上方合集↑ 序言 大家好&#xff0c;我是大澈&#xff01; 本文约2400字&#xff0c;整篇阅读大约需要4分钟。 本文主要内容分三部分&#xff0c;如果您只需要解决问题&#xff0c;请阅读第一、二部分即可。如果您有更多时间&#xff…

KernelSHAP vs TreeSHAP

Kernel SHAP和Tree SHAP都用于近似Shapley值。Tree SHAP要快得多。缺点是它只能用于基于树的算法&#xff0c;如随机森林和xgboost。另一方面&#xff0c;Kernel SHAP是模型不可知的(model agnostic)&#xff0c;这意味着它可以与任何机器学习算法一起使用。我们将比较这两种近…

基于图像识别的垃圾分类

基于机器学习的垃圾分类 摘要&#xff1a;2019年垃圾分类由上海开始实施&#xff0c;继而向全国推行&#xff0c;主要将垃圾种类进行划分&#xff0c;其分类包括可回收、厨余、有害和其他。本文以垃圾分类为核心展开系列探究&#xff0c;使用机器学习对垃圾进行分类&#xff0…

java中IO知识点概念

这里写自定义目录标题 内存中的数据以电子信号的形式表示&#xff0c;而磁盘中的数据是以磁场的方向表示。1.流的分类2.File类3.流的API 关键4.理解缓冲的作用-一次性多拿些读写文件的时候为什么要有缓冲流 -意义是什么缓冲流的使用 5.路径问题6.文件的创建7.内存和磁盘存储本质…

QT中的 容器(container)-大全

一、介绍 Qt库提供了一套通用的基于模板的容器类&#xff0c;可以用这些类存储指定类型的项。比如&#xff0c;你需要一个大小可变的QString的数组&#xff0c;则使用QVector<QString>。 这些容器类比STL&#xff08;C标准模板库&#xff09;容器设计得更轻量、更安全并…

i已学赋能智慧教育时代的幼儿教育

伴随“教育数字化战略行动”的深入开展,智慧教育正式成为国家战略。智慧教育延伸至家校社教育的每个阶段。当前,为适应智慧教育发展趋势,我国制定了《中国教育现代化2035》《教育部关于加强“三个课堂”应用的指导意见》《教育信息化2.0行动计划》等文件。幼儿作为智慧教育、智…

Blazor Select 实现点击一次选项触发一次后台事件

Blazor的官方案例中&#xff0c;Select组件只有两个事件 1、OnSelectedItemChanged 每次选项的时候改变触发&#xff0c;如果你点击同一个选项是不会触发后台的方法的 2、OnBeforeSelectedItemChange 我们可以用这个事件实现每次点击同一个选项都可以触发后台事件 需要注意下最…

OCR文字识别工具 Cisdem OCRWizard激活最新 for Mac

为了提高内容识别的准确性&#xff0c;Cisdem OCRWizard提供供您选择两种模式&#xff1a;文件或名片。此外&#xff0c;它会自动分析的内容&#xff0c;标志着不同颜色的页面上几个区域根据给定部分的性质&#xff1a;文本&#xff08;绿色标记&#xff09;&#xff0c;图像&a…

Stable Diffusion绘画系列【3】:二次元动漫画风

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推…

单片机BootLoader是咋回事?

BootLoader的定义&#xff1a; CPU进入APP之前运行的一小段程序代码就叫做BootLoader。它是由程序员编写的&#xff0c;作用是更新应用程序。这也就说明了只有BootLoader的单片机才可以升级。有的产品有升级的需要就需要BootLoader了。 单片机的启动过程可以这么叙述&#xff…

ArrayList源码全面解析

一、概述 ArrayList 是 java 集合框架中比较常用的数据结构,继承自 AbstractList&#xff0c;实现了 List 接口。底层采用数组来实现。ArrayList 实现了java.io.Serializable接口&#xff0c;这意味着ArrayList支持序列化&#xff0c;能通过序列化去传输。 1.1、底层数据结构…

fiddler设置手机端抓包看这篇文章就足够了,轻松解决!

fiddler设置手机端抓包 安卓手机抓包 第一步&#xff1a;配置电脑和安卓的相关设置 1、手机和fiddler位于同一个局域网内&#xff1b;首先从fiddler处获取到ip地址和端口号&#xff1a; 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; &#xff0c;点…

10年资深码农,聊聊程序员的35岁危机

程序员的一天&#xff0c;日常都在做什么&#xff1f; 很多外行以及初入 IT 行业的从业者&#xff0c;往往只看到了高薪、加班、敲代码的标签&#xff0c;那程序员的日常究竟是什么样的&#xff1f; 当代程序员的一天&#xff1a;聊天、开会、写代码 哪种技术最热门与能拿到高…

Shell编程基础 – for循环

Shell编程基础 – for循环 Shell Scripting Essentials - for Loop 大多数编程语言都有循环的概念和语句。如果想重复一个任务数十次&#xff0c;无论是输入数十次&#xff0c;还是输出数十次&#xff0c;对用户来说都不现实。 因此&#xff0c;我们考虑如何用好Bash Shell编…

(Spring学习06)Spring之循环依赖底层源码解析

什么是循环依赖&#xff1f; 很简单&#xff0c;就是A对象依赖了B对象&#xff0c;B对象依赖了A对象。 比如&#xff1a; // A依赖了B class A{public B b; }// B依赖了A class B{public A a; }那么循环依赖是个问题吗&#xff1f; 如果不考虑Spring&#xff0c;循环依赖并不…

浅谈STL中的分配器

分配器是STL中的六大部件之一&#xff0c;是各大容器能正常运作的关键&#xff0c;但是对于用户而言确是透明的&#xff0c;它似乎更像是一个幕后英雄&#xff0c;永远也不会走到舞台上来&#xff0c;观众几乎看不到它的身影&#xff0c;但是它又如此的重要。作为用户&#xff…

计算机缺少vcruntime140_1.dll的5个解决方法,轻松解决dll缺失问题

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“缺少vcruntime140_1.dll”。这个错误提示通常出现在运行某些程序或游戏时&#xff0c;这个错误通常会导致某些应用程序无法正常运行。那么&#xff0c;如何解决缺少vcruntime140_1.dll的问…

Vue框架学习笔记——事件处理:v-on指令+methods

文章目录 前文提要事件处理的解析过程&#xff0c;v-on:事件名样例代码如下&#xff1a;效果展示图片&#xff1a;v-on:事件名"响应函数"v-on简写形式响应函数添加响应函数传参占位符"$event"注意事项 前文提要 本人仅做个人学习记录&#xff0c;如有错误…

深度学习框架配置

目录 1. 配置cuda环境 1.1. 安装cuda和cudnn 1.1.1. 显卡驱动配置 1.1.2. 下载安装cuda 1.1.3. 下载cudnn&#xff0c;将解压后文件复制到cuda目录下 1.2. 验证是否安装成功 2. 配置conda环境 2.1. 安装anaconda 2.2. conda换源 2.3. 创建conda环境 2.4. pip换源 3.…