大创项目推荐 题目:基于深度学习的图像风格迁移 - [ 卷积神经网络 机器视觉 ]

文章目录

  • 0 简介
  • 1 VGG网络
  • 2 风格迁移
  • 3 内容损失
  • 4 风格损失
  • 5 主代码实现
  • 6 迁移模型实现
  • 7 效果展示
  • 8 最后

0 简介

🔥 优质竞赛项目系列,今天要分享的是

基于深度学习卷积神经网络的花卉识别

该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

图片风格迁移指的是将一个图片的风格转换到另一个图片中,如图所示:

在这里插入图片描述
原图片经过一系列的特征变换,具有了新的纹理特征,这就叫做风格迁移。

1 VGG网络

在实现风格迁移之前,需要先简单了解一下VGG网络(由于VGG网络不断使用卷积提取特征的网络结构和准确的图像识别效率,在这里我们使用VGG网络来进行图像的风格迁移)。

在这里插入图片描述
如上图所示,从A-
E的每一列都表示了VGG网络的结构原理,其分别为:VGG-11,VGG-13,VGG-16,VGG-19,如下图,一副图片经过VGG-19网络结构可以最后得到一个分类结构。

在这里插入图片描述

2 风格迁移

对一副图像进行风格迁移,需要清楚的有两点。

  • 生成的图像需要具有原图片的内容特征
  • 生成的图像需要具有风格图片的纹理特征

根据这两点,可以确定,要想实现风格迁移,需要有两个loss值:
一个是生成图片的内容特征与原图的内容特征的loss,另一个是生成图片的纹理特征与风格图片的纹理特征的loss。

而对一张图片进行不同的特征(内容特征和纹理特征)提取,只需要使用不同的卷积结构进行训练即可以得到。这时我们需要用到两个神经网络。

再回到VGG网络上,VGG网络不断使用卷积层来提取特征,利用特征将物品进行分类,所以该网络中提取内容和纹理特征的参数都可以进行迁移使用。故需要将生成的图片经过VGG网络的特征提取,再分别针对内容和纹理进行特征的loss计算。

在这里插入图片描述
如图,假设初始化图像x(Input image)是一张随机图片,我们经过fw(image Transform Net)网络进行生成,生成图片y。
此时y需要和风格图片ys进行特征的计算得到一个loss_style,与内容图片yc进行特征的计算得到一个loss_content,假设loss=loss_style+loss_content,便可以对fw的网络参数进行训练。

现在就可以看网上很常见的一张图片了:

在这里插入图片描述
相较于我画的第一张图,这即对VGG内的loss求值过程进行了细化。

细化的结果可以分为两个方面:

  • (1)内容损失
  • (2)风格损失

3 内容损失

由于上图中使用的模型是VGG-16,那么即相当于在VGG-16的relu3-3处,对两张图片求得的特征进行计算求损失,计算的函数如下:

在这里插入图片描述

简言之,假设yc求得的特征矩阵是φ(y),生成图片求得的特征矩阵为φ(y^),且c=φ.channel,w=φ.weight,h=φ.height,则有:

在这里插入图片描述

代码实现:

def content_loss(content_img, rand_img):
    content_layers = [('relu3_3', 1.0)]
    content_loss = 0.0
    # 逐个取出衡量内容损失的vgg层名称及对应权重
    for layer_name, weight in content_layers:

        # 计算特征矩阵
        p = get_vgg(content_img, layer_name)
        x = get_vgg(rand_img, layer_name)
        # 长x宽xchannel
        M = p.shape[1] * p.shape[2] * p.shape[3]

        # 根据公式计算损失,并进行累加
        content_loss += (1.0 / M) * tf.reduce_sum(tf.pow(p - x, 2)) * weight

    # 将损失对层数取平均
    content_loss /= len(content_layers)
    return content_loss

4 风格损失

风格损失由多个特征一同计算,首先需要计算Gram Matrix

在这里插入图片描述
Gram Matrix实际上可看做是feature之间的偏心协方差矩阵(即没有减去均值的协方差矩阵),在feature
map中,每一个数字都来自于一个特定滤波器在特定位置的卷积,因此每个数字就代表一个特征的强度,而Gram计算的实际上是两两特征之间的相关性,哪两个特征是同时出现的,哪两个是此消彼长的等等,同时,Gram的对角线元素,还体现了每个特征在图像中出现的量,因此,Gram有助于把握整个图像的大体风格。有了表示风格的Gram
Matrix,要度量两个图像风格的差异,只需比较他们Gram Matrix的差异即可。 故在计算损失的时候函数如下:

在这里插入图片描述
在实际使用时,该loss的层级一般选择由低到高的多个层,比如VGG16中的第2、4、7、10个卷积层,然后将每一层的style loss相加。

在这里插入图片描述
第三个部分不是必须的,被称为Total Variation
Loss。实际上是一个平滑项(一个正则化项),目的是使生成的图像在局部上尽可能平滑,而它的定义和马尔科夫随机场(MRF)中使用的平滑项非常相似。
其中yn+1是yn的相邻像素。

代码实现以上函数:

# 求gamm矩阵
def gram(x, size, deep):
    x = tf.reshape(x, (size, deep))
    g = tf.matmul(tf.transpose(x), x)
    return g

def style_loss(style_img, rand_img):
    style_layers = [('relu1_2', 0.25), ('relu2_2', 0.25), ('relu3_3', 0.25), ('reluv4_3', 0.25)]
    style_loss = 0.0
    # 逐个取出衡量风格损失的vgg层名称及对应权重
    for layer_name, weight in style_layers:

        # 计算特征矩阵
        a = get_vgg(style_img, layer_name)
        x = get_vgg(rand_img, layer_name)

        # 长x宽
        M = a.shape[1] * a.shape[2]
        N = a.shape[3]

        # 计算gram矩阵
        A = gram(a, M, N)
        G = gram(x, M, N)

        # 根据公式计算损失,并进行累加
        style_loss += (1.0 / (4 * M * M * N * N)) * tf.reduce_sum(tf.pow(G - A, 2)) * weight
    # 将损失对层数取平均
    style_loss /= len(style_layers)
    return style_loss

5 主代码实现

代码实现主要分为4步:

  • 1、随机生成图片

  • 2、读取内容和风格图片

  • 3、计算总的loss

  • 4、训练修改生成图片的参数,使得loss最小

      * def main():
            # 生成图片
            rand_img = tf.Variable(random_img(WIGHT, HEIGHT), dtype=tf.float32)
            with tf.Session() as sess:
    
                content_img = cv2.imread('content.jpg')
                style_img = cv2.imread('style.jpg')
            
                # 计算loss值
                cost = ALPHA * content_loss(content_img, rand_img) + BETA * style_loss(style_img, rand_img)
                optimizer = tf.train.AdamOptimizer(LEARNING_RATE).minimize(cost)
            
                sess.run(tf.global_variables_initializer())
                
                for step in range(TRAIN_STEPS):
                    # 训练
                    sess.run([optimizer,  rand_img])
            
                    if step % 50 == 0:
                        img = sess.run(rand_img)
                        img = np.clip(img, 0, 255).astype(np.uint8)
                        name = OUTPUT_IMAGE + "//" + str(step) + ".jpg"
                        cv2.imwrite(name, img)
    
    
    

    6 迁移模型实现

由于在进行loss值求解时,需要在多个网络层求得特征值,并根据特征值进行带权求和,所以需要根据已有的VGG网络,取其参数,重新建立VGG网络。
注意:在这里使用到的是VGG-19网络:

在重建的之前,首先应该下载Google已经训练好的VGG-19网络,以便提取出已经训练好的参数,在重建的VGG-19网络中重新利用。

在这里插入图片描述
下载得到.mat文件以后,便可以进行网络重建了。已知VGG-19网络的网络结构如上述图1中的E网络,则可以根据E网络的结构对网络重建,VGG-19网络:

在这里插入图片描述
进行重建即根据VGG-19模型的结构重新创建一个结构相同的神经网络,提取出已经训练好的参数作为新的网络的参数,设置为不可改变的常量即可。

def vgg19():
    layers=(
        'conv1_1','relu1_1','conv1_2','relu1_2','pool1',
        'conv2_1','relu2_1','conv2_2','relu2_2','pool2',
        'conv3_1','relu3_1','conv3_2','relu3_2','conv3_3','relu3_3','conv3_4','relu3_4','pool3',
        'conv4_1','relu4_1','conv4_2','relu4_2','conv4_3','relu4_3','conv4_4','relu4_4','pool4',
        'conv5_1','relu5_1','conv5_2','relu5_2','conv5_3','relu5_3','conv5_4','relu5_4','pool5'
    )
    vgg = scipy.io.loadmat('D://python//imagenet-vgg-verydeep-19.mat')
    weights = vgg['layers'][0]

    network={}
    net = tf.Variable(np.zeros([1, 300, 450, 3]), dtype=tf.float32)
    network['input'] = net
    for i,name in enumerate(layers):
        layer_type=name[:4]
        if layer_type=='conv':
            kernels = weights[i][0][0][0][0][0]
            bias = weights[i][0][0][0][0][1]
            conv=tf.nn.conv2d(net,tf.constant(kernels),strides=(1,1,1,1),padding='SAME',name=name)
            net=tf.nn.relu(conv + bias)
        elif layer_type=='pool':
            net=tf.nn.max_pool(net,ksize=(1,2,2,1),strides=(1,2,2,1),padding='SAME')
        network[name]=net
    return network

由于计算风格特征和内容特征时数据都不会改变,所以为了节省训练时间,在训练之前先计算出特征结果(该函数封装在以下代码get_neck()函数中)。

总的代码如下:



    import tensorflow as tf
    import numpy as np
    import scipy.io
    import cv2
    import scipy.misc
    
    HEIGHT = 300
    WIGHT = 450
    LEARNING_RATE = 1.0
    NOISE = 0.5
    ALPHA = 1
    BETA = 500
    
    TRAIN_STEPS = 200
    
    OUTPUT_IMAGE = "D://python//img"
    STYLE_LAUERS = [('conv1_1', 0.2), ('conv2_1', 0.2), ('conv3_1', 0.2), ('conv4_1', 0.2), ('conv5_1', 0.2)]
    CONTENT_LAYERS = [('conv4_2', 0.5), ('conv5_2',0.5)]

    def vgg19():
        layers=(
            'conv1_1','relu1_1','conv1_2','relu1_2','pool1',
            'conv2_1','relu2_1','conv2_2','relu2_2','pool2',
            'conv3_1','relu3_1','conv3_2','relu3_2','conv3_3','relu3_3','conv3_4','relu3_4','pool3',
            'conv4_1','relu4_1','conv4_2','relu4_2','conv4_3','relu4_3','conv4_4','relu4_4','pool4',
            'conv5_1','relu5_1','conv5_2','relu5_2','conv5_3','relu5_3','conv5_4','relu5_4','pool5'
        )
        vgg = scipy.io.loadmat('D://python//imagenet-vgg-verydeep-19.mat')
        weights = vgg['layers'][0]
    
        network={}
        net = tf.Variable(np.zeros([1, 300, 450, 3]), dtype=tf.float32)
        network['input'] = net
        for i,name in enumerate(layers):
            layer_type=name[:4]
            if layer_type=='conv':
                kernels = weights[i][0][0][0][0][0]
                bias = weights[i][0][0][0][0][1]
                conv=tf.nn.conv2d(net,tf.constant(kernels),strides=(1,1,1,1),padding='SAME',name=name)
                net=tf.nn.relu(conv + bias)
            elif layer_type=='pool':
                net=tf.nn.max_pool(net,ksize=(1,2,2,1),strides=(1,2,2,1),padding='SAME')
            network[name]=net
        return network


    # 求gamm矩阵
    def gram(x, size, deep):
        x = tf.reshape(x, (size, deep))
        g = tf.matmul(tf.transpose(x), x)
        return g

    def style_loss(sess, style_neck, model):
        style_loss = 0.0
        for layer_name, weight in STYLE_LAUERS:
            # 计算特征矩阵
            a = style_neck[layer_name]
            x = model[layer_name]
            # 长x宽
            M = a.shape[1] * a.shape[2]
            N = a.shape[3]
    
            # 计算gram矩阵
            A = gram(a, M, N)
            G = gram(x, M, N)
    
            # 根据公式计算损失,并进行累加
            style_loss += (1.0 / (4 * M * M * N * N)) * tf.reduce_sum(tf.pow(G - A, 2)) * weight
            # 将损失对层数取平均
        style_loss /= len(STYLE_LAUERS)
        return style_loss

    def content_loss(sess, content_neck, model):
        content_loss = 0.0
        # 逐个取出衡量内容损失的vgg层名称及对应权重
    
        for layer_name, weight in CONTENT_LAYERS:
            # 计算特征矩阵
            p = content_neck[layer_name]
            x = model[layer_name]
            # 长x宽xchannel
    
            M = p.shape[1] * p.shape[2]
            N = p.shape[3]
    
            lss = 1.0 / (M * N)
            content_loss += lss * tf.reduce_sum(tf.pow(p - x, 2)) * weight
            # 根据公式计算损失,并进行累加
    
        # 将损失对层数取平均
        content_loss /= len(CONTENT_LAYERS)
        return content_loss


    def random_img(height, weight, content_img):
        noise_image = np.random.uniform(-20, 20, [1, height, weight, 3])
        random_img = noise_image * NOISE + content_img * (1 - NOISE)
        return random_img

    def get_neck(sess, model, content_img, style_img):
        sess.run(tf.assign(model['input'], content_img))
        content_neck = {}
        for layer_name, weight in CONTENT_LAYERS:
            # 计算特征矩阵
            p = sess.run(model[layer_name])
            content_neck[layer_name] = p
        sess.run(tf.assign(model['input'], style_img))
        style_content = {}
        for layer_name, weight in STYLE_LAUERS:
            # 计算特征矩阵
            a = sess.run(model[layer_name])
            style_content[layer_name] = a
        return content_neck, style_content

    def main():
        model = vgg19()
        content_img = cv2.imread('D://a//content1.jpg')
        content_img = cv2.resize(content_img, (450, 300))
        content_img = np.reshape(content_img, (1, 300, 450, 3)) - [128.0, 128.2, 128.0]
        style_img = cv2.imread('D://a//style1.jpg')
        style_img = cv2.resize(style_img, (450, 300))
        style_img = np.reshape(style_img, (1, 300, 450, 3)) - [128.0, 128.2, 128.0]
    
        # 生成图片
        rand_img = random_img(HEIGHT, WIGHT, content_img)
    
        with tf.Session() as sess:
            # 计算loss值
            content_neck, style_neck = get_neck(sess, model, content_img, style_img)
            cost = ALPHA * content_loss(sess, content_neck, model) + BETA * style_loss(sess, style_neck, model)
            optimizer = tf.train.AdamOptimizer(LEARNING_RATE).minimize(cost)
    
            sess.run(tf.global_variables_initializer())
            sess.run(tf.assign(model['input'], rand_img))
            for step in range(TRAIN_STEPS):
                print(step)
                # 训练
                sess.run(optimizer)
    
                if step % 10 == 0:
                    img = sess.run(model['input'])
                    img += [128, 128, 128]
                    img = np.clip(img, 0, 255).astype(np.uint8)
                    name = OUTPUT_IMAGE + "//" + str(step) + ".jpg"
                    img = img[0]
                    cv2.imwrite(name, img)
    
            img = sess.run(model['input'])
            img += [128, 128, 128]
            img = np.clip(img, 0, 255).astype(np.uint8)
            cv2.imwrite("D://end.jpg", img[0])
    
    main()

7 效果展示

在这里插入图片描述

8 最后

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/373710.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

为什么(如何)从 Java 8/11 迁移到 Java 21,从 Spring Boot 2 迁移到最新的 Spring Boot 3.2 ?

介绍 如果您的工作配置与 Java 有一定的关系,您一定已经注意到 了Java 最新稳定版本 Java 21 引起了很多关注。 这个新版本引入了一些未来的功能,改进了之前引入/孵化的一些突破性功能,弃用了多余的功能,并删除了一些错误。它使…

【工具】Android|Android Studio 长颈鹿版本安装下载使用详解

版本:2022.3.1.22, https://redirector.gvt1.com/edgedl/android/studio/install/2022.3.1.22/android-studio-2022.3.1.22-windows.exe 前言 笔者曾多次安装并卸载Android Studio,反复被安卓模拟器劝退。现在差不多是第三次安装&#xff0c…

【Java八股面试系列】JVM-垃圾回收

目录 垃圾回收 堆空间的基本结构 内存分配和回收原则 分代收集机制 Minor GC 流程 空间分配担保 老年代 大对象直接进入老年代 长期存活的对象将进入老年代 GC的区域 对象存活判定算法 引用计数法 可达性分析算法 finalize() 字符串常量判活 类判活 垃圾回收算…

ChatGPT 4.0 升级指南, ChatGPT Plus(GPT 4.0) 有何优势?

1.ChatGPT 是什么? ChatGPT 是由 OpenAI 开发的一种基于人工智能的聊天机器人,它基于强大的语言处理模型 GPT(Generative Pre-trained Transformer)构建。它能够理解人类语言,可以为我们解决实际的问题。 ChatGPT 4.…

5 款提升 UI 设计效率的软件工具

你知道如何选择正确的UI设计软件吗?你知道设计漂亮的用户界面和带来良好用户体验的应用程序需要什么界面设计软件吗?基于APP界面的不同功能,所选择的APP界面设计软件也会有所不同。然而,并不是说所有的APP界面设计软件都非常精通&…

【CSS】页面自适应屏幕宽度(响应式布局媒体查询-@media、弹性布局、网格布局和相对单位-vh/em/%)

【CSS】页面自适应屏幕宽度(响应式布局媒体查询-media、弹性布局、网格布局和相对单位-vh/em/%) 一、媒体查询(media)1、媒体类型2、媒体特征3、媒体查询语法4、示例(1)示例1(2)示例…

docker复习笔记01(小滴课堂)安装+部署mysql

查看内核版本。 关闭防火墙: 查看docker版本: 下载阿里yum源: 再看一下yum版本都有哪些: 我们可以看的docker-ce了。 安装它: 设置docker服务开机启动: 更新日志文件: 启动docker: …

【RK3288 Android6 “算法板系统中断,正在重启,请稍等”问题排查】

文章目录 【RK3288 Android6 “算法板系统中断,正在重启,请稍等”问题排查】问题描述排查user_service.shlogcat解决方案【RK3288 Android6 “算法板系统中断,正在重启,请稍等”问题排查】 问题描述 现场出现多家机器,每次在开机的时候会上报算法板系统中断,正在重启,…

AR特效自研AI算法技术解决方案

在当今这个高速发展的数字化时代,增强现实(AR)技术已经成为企业创新和市场竞争的重要手段。美摄科技凭借对AI技术的深厚积累,为企业提供了一套创新的AR特效自研AI算法技术解决方案,旨在满足企业在AR领域的多元化需求。…

支持534种语言,开源大语言模型MaLA-500

无论是开源的LLaMA 2还是闭源的GPT系列模型,功能虽然很强大,但对语言的支持和扩展比较差,例如,二者都是以英语为主的大模型。 为了提升大模型语言的多元化,慕尼黑大学、赫尔辛基大学等研究人员联合开源了,…

GO语言集成开发 JetBrains GoLand 2023 中文

JetBrains GoLand 2023是一款专为Go语言开发者打造的集成开发环境(IDE)。它基于IntelliJ IDEA平台,提供了丰富的功能和工具,旨在提高开发效率和质量。GoLand 2023具备强大的Go语言支持,包括语法高亮、自动补全、代码提…

代码随想录算法训练营第三十六天|背包问题

01背包问题 二维 代码随想录 视频讲解:带你学透0-1背包问题!| 关于背包问题,你不清楚的地方,这里都讲了!| 动态规划经典问题 | 数据结构与算法_哔哩哔哩_bilibili public class BagProblem {public static void main(…

深度学习中的Droupout

1. 什么是Droupout Dropout的作用是防止过拟合。 Dropout在训练模型中是如何实现的呢?Dropout的做法是在训练过程中按一定比例(比例参数可设置)随机忽略或屏蔽一些神经元。这些神经元被随机“抛弃”,也就是说它们在正向传播过程…

AR人脸106240点位检测解决方案

美摄科技针对企业需求推出了AR人脸106/240点位检测解决方案,为企业提供高效、精准的人脸识别服务,采用先进的人脸识别算法和机器学习技术,通过高精度、高速度的检测设备,对人脸进行快速、准确地定位和识别。该方案适用于各种应用场…

R语言阈值效应函数cut.tab2.0版发布(支持线性回归、逻辑回归、cox回归,自定义拐点)

阈值效应和饱和效应是剂量-反应关系中常见的两种现象。阈值效应是指当某种物质的剂量达到一定高度时,才会对生物体产生影响,而低于这个剂量则不会产生影响。饱和效应是指当某种物质的剂量达到一定高度后,其影响不再随剂量的增加而增加&#x…

黑群晖安装教程-——传统优盘引导制作中问题

一、引导设置 首先讲一下群晖的UEFI跟Legacy启动选择,6.0以下应该都是Legacy 常见的6.17也就是1.02B的引导 UEFI跟Legacy(传统引导)启动都正常。所以6.17的引导盘全部选UEFI启动就对了,速度快。 6.2\6.22test 的1.03B 1.03a2的…

Node.js JSON Schema Ajv依赖库逐步介绍验证类型和中文错误提示

在构建应用程序时,数据的有效性是至关重要的。为了确保传入的数据符合预期的格式和规范,我们可以使用 Ajv(Another JSON Schema Validator)进行验证。在这篇博文中,我们将从头开始学习 Ajv,逐步介绍验证类型…

第7节、双电机直线运动【51单片机+L298N步进电机系列教程】

↑↑↑点击上方【目录】,查看本系列全部文章 摘要:前面章节主要介绍单个电机控制,本节内容介绍两个电机完成Bresenham直线运动 一、Bresenham直线算法介绍 Bresenham直线算法由Jack Elton Bresenham于1962年在IBM开发,最初用于计…

《最新出炉》系列初窥篇-Python+Playwright自动化测试-16-处理模态对话框弹窗

1.简介 我们在日常工作中,会经常遇到弹出警告框的问题,弹框无法绕过,必须处理才可以执行后续的测试,所以弹框处理也是我们必须掌握的一个知识。宏哥在javaselenium系列文章中介绍过这部分内容。那么,playwright对于弹…

第2节、让电机转起来【51单片机+L298N步进电机系列教程】

↑↑↑点击上方【目录】,查看本系列全部文章 摘要:本节介绍用简单的方式,让步进电机转起来。其目的之一是对电机转动有直观的感受,二是熟悉整个开发流程。本系列教程必要的51单片机基础包括IO口操作、中断、定时器三个部分&#…