【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision

时间:2019 年
级别:SCI
机构:南京信息工程大学

摘要

随着多媒体呈现技术、图像采集技术和互联网行业的发展,远程通信的方式已经从以前的书信、音频转变为现在的音频/视频。和 视频在工作、学习和娱乐中的比例不断提高,高清视频越来越受到人们的重视。由于网络环境和存储容量的限制,原始视频必须进行编码才能高效地传输和存储。高效视频编码(HEVC)需要大量的编码时间 递归遍历自适应量化过程中编码单元所有可能的量化参数值。通过比较率失真代价计算出最优量化参数。本文提出了一种基于卷积神经网络的HEVC量化参数快速选择方法,节省了视频编码时间。

介绍

随着多媒体成像技术、图像采集技术和互联网产业的发展,人们的远程通信方式已经从以前的书信方式转变为音视频结合的方式。视频在工作、学习和娱乐中的比重越来越高。此外,高清视频可以提供更清晰、更逼真的图像,对于会议格式、监控精度等各个行业的发展都起着至关重要的作用。然而,随着视频清晰度和分辨率的提高,视频内容需要更多的比特来存储。高效的压缩是超高清视频能否广泛应用于市场的关键。为应对不断变化的视频编码需求,国际联合视频团队发布了HEVC。

新一代标准在技术上进行了深度更新,如在编码结构中采用四叉树算法提高编码树单元的划分水平、使用更大的分辨率和非对称预测单元、多参考帧运动估计等。此外,HEVC将基于块的运动补偿用于帧间预测。HEVC可以计算连续帧之间在空域和时域上最佳匹配块的偏移距离。这是运动矢量MV。通过选择空域或时域上相邻的MV来预测当前MV,然后对MV的预测残差进行编码,从而节省了大量的MV编码比特数。在MV预测方面,HEVC提出了AMVP和Merge两种新技术。这两种新技术都建立一个候选MV列表,然后选择率失真代价最小的MV作为当前主用户的预测MV。两者的区别主要在于Merge模式主要传输候选PU块的索引,而不需要传输MV信息。AMVP模式需要传输当前编码PU的MV信息进行帧间预测。其次,候选链表长度不同;Merge模式的候选列表长度为5,而AMVP模式的候选列表长度仅为2。H.265/HEVC的视频压缩效率得到了很大提高在保证视频压缩质量与先进的视频编码标准H.264编码的高清视频质量无差异后得到显著改善。

HEVC中的变换和量化模块主要根据图像内容计算相关系数,从而减少图像内容的冗余,更高效地压缩视频数据。对于视频编码量化过程,编码单元需要花费大量时间进行最优自适应量化参数选择。该过程被建模为编码单元量化参数的分类,预训练网络模型直接预测不同类型的编码块。最优自适应量化参数。 最后,在视频压缩后的视频质量和码率与原始编码没有显著差异的情况下,实现了视频编码复杂度的优化。

旨在解决视频编码过程中最优量化参数决策计算复杂度高的问题。研究了一种基于卷积神经网络的快速量化参数决策方法。首先,明确了原始高效视频编码标准码的基本量化参数;根据编码提供的方法,通过递归计算视频每帧中包含的所有CUs的率失真代价,得到最优的量化参数偏移。将CU图像与对应偏移量一一对应作为卷积神经网络的训练集,参与卷积神经网络的分类训练。将原有的最优量化参数计算过程替换为训练好的模型和相关代码。实验结果表明,与HEVC中选择最优量化参数的方法相比,所提方法的编码时间平均减少34%,而码率和PSNR的损失基本可以忽略不计。

本文的剩余内容组织如下。第二部分介绍了相关工作。建议工作的详细内容见第3节。第4节给出了实验结果。最后,第五部分对本文进行了总结。

相关工作

目前,视频编码引起了学术界、研究机构和大公司越来越多的关注。在视频编码复杂度优化过程中,根据优化模块的不同,可分为HEVC帧内模块复杂度优化和HEVC模块间复杂度优化两部分,用于消除视频中单帧或多帧之间的冗余信息。有两个重要的方向需要人们去优化,一个是优化不同预测单元的大小,另一个是减少帧内预测方向。根据相邻编码的时空信息, Tang, Jing, Chen等缩小了CU的遍历范围,并通过判断当前最佳预测模式是否为平面模式来优化其他CU的预测模式选择。Tian等提出了一种高效的帧内PU选择算法,根据该算法计算编码树单元及其子编码单元的内容信息。然后他们决定是否直接进行下一轮的PU模式选择过程。Belghith等使用Sobel算子检测CU的边缘并分析CU的纹理含量。如果CU的内容比较简单,编码直接在当前深度执行。否则,如果当前CU的内容是复杂的,则继续划分。Yao等利用纹理的像素排列信息为不同的PUs选择不同的编码模式。Min等通过分析视频帧的纹理特征来分割不同大小的CUs。Qi等利用Soble算子根据图像像素值和空间相关性计算纹理方向信息,选择帧内模式进行预测。Shen等提出了一种基于纹理信息与视频图像时空关系的快速帧内选择算法,通过计算平均绝对误差获得纹理信息。帧间预测的优化在于更好地选择CU和PU。在Kim 中,将运动矢量、跳跃模式下PU的关系以及对应的残差一起作为一个模型。这样可以降低PU决策过程的复杂度。Shen等利用空时域信息确定编码树单元的CU深度范围。他们通过跳过或提前终止不常用的CU深度来动态调整CTU水平。 Kim等通过计算skip模式编码CU的率失真代价,建立了预测当前CU的模型。Feng等利用CU在当前深度的运动信息来判断相邻帧中相同区域的CU划分。该方法通过计算不同CU的深度来减少预测模式的决策方案数量。

目前,视频编码优化的方法可以分为两类:基于统计的方法和基于机器学习的方法。基于统计的方法是根据统计信息提前终止或跳过不必要的模式。 Lee等提出利用失真特征确定合并模式,使用跳过模式跳过不必要的模式。Zupancic等提出了一种自适应的方法,根据更高CU深度的编码信息自底向上反向检测CU。Jung和Park采用了一种利用码率和码率数据自适应加速HEVC编码过程的方法。Jung等人使用了一种基于非零离散余弦变换系数的快速TU决策算法,通过裁剪四叉树来降低复杂度。李,金,林等(提出了一种快速CU判决算法,该算法参考了跳跃模式判决、CU跳跃估计和CU提前终止算法,并利用贝叶斯决策理论确定CU终止阈值。Xiong等提出了一种基于绝对差值估计的快速决策算法。Ahn等提出了一种快速高效的CU编码方法,利用样本自适应偏移量、MV和TU大小等纹理参数来估计纹理复杂度和时间复杂度。上述所有方法都是基于统计分析,过早终止或跨越不相关的CUs/PUs/Tus检查。这可能会限制它对其他序列的适用性。

从机器学习的角度来看,视频编码过程的模式选择可以看作是一个分类问题。例如,HEVC中的CU划分可以被认为是一个二分类任务。现有的机器学习算法用于预测HEVC中CU、PU或TU的大小。Shen等使用贝叶斯决策理论将残差系数的方差映射到TU大小。Kim等提出了一种基于贝叶斯决策理论的CU过早终止算法。在Correa等的研究中,Correa等使用决策树来预测CU的大小。Zhang等设计了一个三输出联合分类器和一个灵活的CU深度决策结构。Alencar等提出了一种基于Pegasos算法的快速CU决策方法,通过在线学习终止CU划分过程。Zhu等设计了一种基于机器学习的决策函数来控制预测精度。Peixoto等构建了一种新的H.264 /AVC到HEVC的转换架构。他们利用H.264/AVC编码参数来确定HEVC编码标准的CU划分模式。利用线性判别函数将H.264/AVC编码参数映射到HEVC编码标准的CU划分上。这些方法通过机器学习预测CU, PU和TU算法。然而,这些算法仅使用弱分类器来实现模式选择。过多的错误分类可能导致较差的RD性能和没有降低复杂度。

上述复杂度优化算法大多集中于HEVC帧内/帧间预测模块中CUs/ PUs的复杂度优化技术。研究人员经常依靠主观推理来解决复杂的计算机视觉问题。这种行为往往会忽略隐含但有用的特征。对于量化模块,上述方法在量化过程中仍然采用递归搜索的方法来选择最优的量化参数。计算最优量化参数的过程占据了整个编码周期的很大一部分。由于视频编码效率受到影响,需要对最优量化参数选择过程进行优化。

提出的方法

在本节中,我们将介绍一种基于卷积神经网络的H.265/HEVC量化参数的快速决策方法。
QP选择的问题表述
HEVC标准参考软件- HM在定量过程中采用两种方式计算定量参数。一是采用传统的计算方法。首先指定一个基于基本QP的量化参数,然后根据该参数计算偏移量不同CUs的复杂性。最后,将基本QP和量化参数偏移量相加得到量化参数。该方法计算速度快,但编码后的视频主观质量较差,给出了编码所对应的量化参数单位不是最好的。二是采用自适应方法计算最优量化参数。修改HM编码配置文件,指定偏移量参数的取值范围为-7~7。每个CU从64×64到8×8 递归遍历所有可能的量化参数,计算率失真代价。通过比较不同率失真代价的15个量化参数,计算出最优量化参数。不仅对视频的质量进行编码使用 该方法的性能优于前者,但比特率有所降低。然而,该方法在计算QPs时需要大量的时间。
我们的方法
提出将HM中最优量化参数的递归遍历方法简化为卷积神经网络在图像分类问题中的应用。训练模型直接推导量化参数值。得到最终的量化参数,替换HM原有的量化参数计算模块,如图1所示。由于HEVC编码视频的大部分时间都集中在量化参数的计算上,因此最终在理想状态下的编码时间可以节省约14/15。
在这里插入图片描述
我们的网络结构
考虑到如果使用复杂的网络结构,可能会给量化模块带来新的复杂度问题。训练模型使用简单的卷积神经网络,如图2所示。卷积层1使用64个卷积核(3×3×3),步幅设置为1,填充设置为相同,激活函数使用ReLU。池化层1选择最大池化,3×3滤波器,步幅设置为2,池化后进行局部响应归一化。卷积层2使用16个卷积核(3×3×64),填充也设置为相同,激活函数使用ReLU。池化层2也选择最大池化,使用3×3过滤器,步幅设置为1,池化完成后执行局部响应归一化操作。全连接层1通过操作将池化层输出的数据转换为一维列表,设置节点数为128,激活函数使用ReLU。全连接的第2层也是128个节点,激活函数使用ReLU。softmax回归层完全输出前一个连接层并执行线性回归,然后计算每个类的得分。Loss使用交叉熵损失,学习率设置为0.0001。
在这里插入图片描述
其中N表示CU的大小(64×64, 32×32, 16×16, 8×8),不同大小的CU分别训练和预测。
实验结果和分析
本文使用国际视频编码组提供的15个视频测试序列,收集如表1所示的训练数据,并使用帧内编码结构对HM参考软件的性能进行测试。
在这里插入图片描述
为了增加结果的可信度和网络模型的可行性,将基本QP分别设置为22、27、32、37。对每个视频序列的前200帧进行HM编码。记录视频帧的索引、每帧中各编码单元的位置以及编码过程中对应的量化参数。由于相邻帧之间的内容差异不大,因此每10帧提取用于训练的帧。然后,根据编码单元在整个原始视频帧中的位置对原始图像中包含的用于训练的编码单元进行裁剪;最后,总共训练了16种基于不同基本QPs、不同CU大小、不同QP偏移量的不同卷积神经网络模型,分别对应四种基本量化参数下的四种不同编码单元大小。

为了保证实验结果的真实性和可信性,我们将HM16.0原始的最优量化参数模块替换为我们提出的方法结果。编码时间、码率、峰值信噪比(PSNR)均基于原始HM参考软件。

视频编码需要在编码质量、码率和编码时间之间进行权衡。这些参数是评价视频编码方法优劣的基础。在编码过程中,利用训练好的模型预测与最优QPs相比的量化参数。判断该方法计算出的不同编码单元对应的量化参数是否与HM16.0量化相同参数。训练得到的最优QPs的平均准确率为81.2%。

为了验证所提方法对HEVC编码性能的影响,采用编码时间、BDBR和BDPSNR作为性能评价指标。综合考虑预测时间、硬盘读写速度等环境因素测量的编码时间如表2所示。

从表2可以看出,与原始方法相比,Johnny视频序列在整个测试结果中表现最好。当基本QP设置为37时,总体时间节省约34.56%。实验结果受硬件环境的限制,时间仅证明了该方法在此应用中的可行性。结合实验环境,平均编码时间可以节省约34.29%,大大提高了编码效率。
在这里插入图片描述
为了验证所提方法与原方法在码率和编码视频质量方面的差异,采用BDBR和BDPSNR作为测量指标。结果如表3所示。
在这里插入图片描述
从表中可以看出,BDBR和BDPSNR的损失与视频分辨率的关系不大。平均BDBR提升0.98%,即码率提升0.98%。BDPSNR平均降低了0.05 dB,即编码后的视频质量降低了0.05 dB。

为了更直观地观察码率和视频质量之间的差异,给出了码率失真曲线。如图3所示,蓝色线表示HM16.0最优自适应量化参数对编码效果的影响。红线表示所提方法对编码效果的影响。可以清楚地看到,与原始方法相比,本文方法编码的码率和视频质量损失可以忽略不计。
在这里插入图片描述

结论

为了解决超高清视频无法在日常生活中广泛应用的问题,国际联合编码小组JCT-VC头脑风暴,推出了HEVC。虽然编码效率等方面的性能都超过了上一代编码标准H.264。HEVC选择最优的自适应量化参数仍然需要花费大量时间。
为了优化HEVC在量化参数选择算法中的复杂度,提升HEVC的编码性能,利用卷积神经网络将复杂的量化参数计算问题简化为卷积神经网络图像分类问题。
实验结果表明,与自适应最优量化参数选择方法相比,提出的量化参数快速判定方法在HEVC参考代码中可以节省约34%的平均视频编码时间,其他损失基本被忽略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/267669.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python如何将图片转换成字符

PIL(Python Image Library)库是Python平台上一个功能强大的图像处理标准库,支持图像的存储、显示和处理,几乎可以处理所有图片格式,如图像的压缩、裁剪、叠加、添加文字等等。 安装PIL库:pip install pillow from PIL import Image ascii_cha…

35c3 krautflare

参考这篇文章可以彻底了解本题的漏洞所在 https://xz.aliyun.com/t/6527 由于Math.expm1经过patch以后的返回值不可能是-0,但是patch的地方是在typer优化中,所以实际上如果没有优化的话是可以返回-0的,这就意味着如果我们先不停地Math.expm1…

手机技巧:安卓微信8.0.45测试版功能来了

目录 一、更新介绍 二、本次功能更新介绍 2.1 小程序界面优化 2.2 小程序个性化推荐支持关闭 三、其他实用的微信使用长按小技巧 3.1、长按对话框 3.2、长按搜索 3.3、长按相册 3.4、长按视频 3.5、长按表情包(能开启2个技巧) 3.6、长按音频文…

Linux——环境变量与本地变量

环境变量与本地变量 文章目录 环境变量与本地变量1. 环境变量1.1 命令行参数1.2 环境变量PATH1.3 环境变量的概念和相关操作1.3.1 用命令查看环境变量1.3.2 用命令添加环境变量:1.3.2 用命令删除环境变量1.3.3 利用代码查看环境变量1.3.4 利用代码修改或添加环境变量…

运行时和编译时使用的so库不同是否影响可执行文件执行

引子 近日遇到如下问题: 1.如果可执行文件依赖的so库在编译和执行阶段使用的名字一样,但是内容不一样,比如运行时相比于编译时在so库里增加了几个api定义,so库还可以正常使用吗? 2.如果可执行文件依赖的so库在编译和执行阶段使用的…

一文带你认识JVM

🚗🚗🚗今天给大家分享的关于JVM的一些基本认识。 清风的CSDN博客 🛩️🛩️🛩️希望我的文章能对你有所帮助,有不足的地方还请各位看官多多指教,大家一起学习交流! ✈️✈…

Lambda表达式超详解

目录 背景 Lambda表达式的用法 函数式接口 Lambda表达式的基本使用 语法精简 变量捕获 匿名内部类 匿名内部类中的变量捕获 Lambda的变量捕获 Lambda表达式在类集中的使用 Collection接口 List接口 Map接口 总结 背景 Lambda表达式是Java SE 8中的一个重要的新特性.…

cygwin64环境搭建

文章目录 cygwin64环境搭建概述为了编译GNU软件需要安装的组件如下当缺软件的时候, 可以用搜索功能END cygwin64环境搭建 概述 cygwin64主页 https://cygwin.com/ 用起来确实有用linux的感觉, 而且兼容性特别好. GNU的工程全部能编译过. 编译后的exe在win10上也运行的很正正…

Python教程(17)——python模块是什么?python模块详解

Python模块简介 模块是一个包含了Python定义和语句的文件,可用于将功能组织成可重用和可维护的代码块。每个Python文件都可以作为一个模块,模块可以包含变量、函数、类或可执行代码。通过使用模块,我们可以将代码分离成逻辑单元,…

代码规范-代码注释,及注释辅助工具

文章目录 代码规范-代码注释,及注释辅助工具1.常见代码块注释提示标签2.JSDoc3.注释格式 参考:https://knightyun.github.io/2020/03/13/js-comment-format 代码规范-代码注释,及注释辅助工具 1.常见代码块注释提示标签 descfileauthorpara…

抖音小店怎么做?三大核心做好,一周起店不是问题!

大家好,我是电商糖果 有不少朋友说自己的店铺开好之后,不会做。 店铺一直没有流量,也不出单。 糖果做电商七年了,做抖店四年了,不敢自夸自己做店有多牛逼。 但是一个项目我可以做四年之久,我的做店方法…

条款 9:绝不在构造和析构过程中调用虚函数

假设有个类的继承体系,用于建模股票交易,例如买入订单、卖出订单等。此类交易是可审计的,因此每次创建交易对象时,都需要在审计日志中创建适当的条目。 class Transaction { // 所有交易的基类 public: Transaction();virtual vo…

RIPEMD加密算法:原理、应用与安全性

一、引言 在信息时代,数据安全愈发受到重视,加密算法作为保障信息安全的关键技术,其性能和安全性备受关注。RIPEMD(RACE Integrity Primitives Evaluation Message Digest)加密算法作为一种著名的哈希函数&#xff0c…

Folium基础使用-python创建交互式地图与标记

使用 Folium 创建交互式地图与标记 Folium 是一个基于 Leaflet.js 的 Python 库,用于创建交互式地图。下面我们将分别介绍 folium.Map 和 folium.Marker 的使用,展示如何创建一个简单的地图并在上面添加标记点。 创建地图 - folium.Map 首先&#xff…

Stream流的简单使用

stream流的三类方法 获取Stream流 ○ 创建一条流水线,并把数据放到流水线上准备进行操作中间方法 ○ 流水线上的操作 ○ 一次操作完毕之后,还可以继续进行其他操作终结方法 ○ 一个Stream流只能有一个终结方法 ○ 是流水线上的最后一个操作 其实Stream流非常简单,只…

毕设之-消息系统设计(websocket+netty)

文章目录 前言技术选型基本架构 前言 long time no see。 前几天去一家小公司待了待,果断还是选择跑路,第三天就去另一家公司考察环境,和主管聊了两个多小时,非常愉快,就是单位薪资砍了一半。哎,旧事莫提了…

如何给linux内核的config增加新驱动选项?

Kconfig 在Kconfig中添加config选项,可以参考其他同级配置,CAN_F81601最终选中后,会传给Makefile为CONFIG_CAN_F81601,而tristate后面的则是在menuconfig中的文本提示,只要只管可以理解均可 config CAN_F81601trista…

摄影企业网站搭建的作用是什么

几乎每个成年人都有一部手机,在互联网信息时代,手机的作用不言而喻,拍照/摄像成为了不少人经常会做的事,拍一张美美的照片发到社交圈赢得赞声,或是为以后留下回忆或发给自己在意的人,但这只限于生活记叙类图…

玩转大数据21:基于FP-Growth算法的关联规则挖掘及实现

1.引言 关联规则挖掘是大数据领域中重要的数据分析任务之一,其可以帮助我们发现数据集中项目之间的关联关系。关联规则挖掘是指在交易数据或者其他数据集中,发现一些常见的关联项,如购物篮中经常一起出现的商品组合。关联规则挖掘的应用非常…

【FPGA 器件比较】Altera -- Xilinx

比较以下市场前二名的产品线及定位 应用场景XilinxAltera高性能VersalAgilex F/I性能Virtex / Kintex / Artix / Zynq UltraScaleAgilex F/I / Stratix 10中档Virtex / Kintex / Zynq ~ 7 / UltraScaleStratix 10 / Arria 10低成本Artix-7 Sparton-7Cyclone 10 如上表&#x…