【论文解读】Learning based fast H.264 to H.265 transcoding

时间: 2015 年
级别: APSIPA
机构: 上海电力大学

摘要

新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率,被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时,其计算复杂度也显著增加。因此,迫切需要一种高性能的AVC到HEVC转码器。本文提出了一种基于学习的快速转码算法,可以加快CU的判定过程。该方法首先对视频流进行JM解码,然后提取重要特征。这些特征被用作机器学习模型的输入,从而得到特定的CU深度。在x265中,我们跳过未选择的深度,并使用早期剪枝提前终止拆分。实验结果表明,与x265相比,所提转码算法在码率平均下降0.078dB的情况下,最多可节省41%的编码速度。该算法在性能和转码速度之间取得了较好的折中。

介绍

H.264 / AVC是2004年推出的视频压缩行业标准。在过去的十年中,它已经逐渐被接受并应用于在线内容压缩领域。由于带宽、频谱和存储空间的不足,迫切需要新一代视频压缩标准的提出。高效视频编码(HEVC)是由ISO和ITU-T共同制定的新一代视频压缩标准,是H.264的后续标准。这让人们对即将需要将日益增长的超高清内容用于多平台交付产生了巨大的乐观情绪。该算法采用灵活的分块策略,引入了编码树单元(CTU),但没有引入H.264中常用的宏块(MB)。实验结果表明,与H.264相比,HEVC在保证相近视频质量的前提下,可以节省约40%的码率。HEVC帧内编码采用35个方向模式进行预测。采用并行处理架构,加快编码速度,提高性能。

H.264到H.265的转码可能面临平衡码率性能和转码速度的挑战。这两个因素之间的权衡是代码转换框架的关键。H.264采用宏块(MB)作为基本单位。运动估计采用宏块(MB)和子块(subMB)的灵活划分。而在HEVC中,64x64 CTUs是进行进一步拆分的基本单位。HEVC编码器对CU四叉树进行递归遍历。当编码器检查当前深度上的所有候选模式时,当前深度将被分割为子 CU直到最小CU大小。编码器比较所有RD代价,选择RD代价最小的CU深度作为最终深度。转码框架首先对H.264码流进行解码,提取大量信息并使用合适的特征对H.265码流进行重编码。

为了解决码率转换性能和转码速度之间的矛盾,已有许多研究工作。CU的快速判定是一个有意义的研究课题。沈立权等人提出了一种HEVC帧内CU大小和模式选择的快速算法,跳过了一些在空间邻近的CU中很少使用的特定深度级别。Dong Zhang等人提出了一种基于功率谱的率失真优化(PS-RDO)模型,利用残差、模式和运动矢量来估计最佳CU。通过减少CU和PU分区候选个数,可以降低转码复杂度。Fangshun Mu采用一种H.264/AVC编码器级联的HEVC概念编码器架构,加速HEVC编码器的CTU拆分过程。收集H.264/AVC宏块(MBs)的细节信息,减少CU和PU候选模式,以加速CTU拆分过程。郑飞阳等人提出了一种基于H.264解码器残差信息和运动信息的快速转码算法,提出了一种相对有效的CU模式和预测单元(PU)模式选择策略。

为了使预测更加精确,使用机器学习来选择准确的CU深度。一些早期的工作是用这种方法完成的。Xiaolin Shen将CU分裂问题转化为基于支持向量机(SVM)的二分类问题,Luong Pham Van等人提出了一种利用机器学习技术对P图划分分裂标志进行早期预测的快速算法。在每个深度上,该方法帮助确定是否进行分割。

提出了一种基于学习的编码器框架。首先,对输入流进行JM解码,提取有价值的特征;然后使用基于学习的模型,使用这些特征计算每个8x8 CU的特定深度。最后采用早跳、早剪枝的方法跳过无意义深度。

本文的其余部分组织如下。在第二节中,我们简要介绍了CU的划分和我们的编码器框架。在第三节中,我们将介绍详细的结构,包括特征选择、MBs到CUs的映射以及CU深度的跳跃和修剪。第四节给出了实验结果,第五节对本文进行了总结。

问题分析

高清和超高清视频的出现推动了H.265/HEVC的发展,因为更高分辨率的帧需要在相对较大的编码单元中编码。HEVC采用CU代替AVC中的MB。在H.265中,CUs的范围从64x64到8x8,它们基本上替代了之前标准中的MBs和块。HEVC将帧划分为 CTU,并引入了编码单元(coding unit, CU)、预测单元(prediction unit, PU)和变换单元(transform unit, TU) 3个概念,以方便对块层次结构的语法表示。

编码结构可以分析为递归计算不同大小的CU和PU。图1显示了一个典型的CTU拆分方式。CU以递归的方式划分,从64x64到8x8。对于每种尺寸的CU,计算RD代价,直到遍历所有尺寸的CU。然后采用具有最小RD代价的CU尺寸,并放弃其他拆分方式。因此,编码器必须尝试所有可能的CUs和PUs组合,这大大增加了编码器的计算负担。
在这里插入图片描述
由于H.264的编码结构与HEVC类似,因此可以重用H.264码流中的细节信息来帮助判断特定的CU和PU模式。图2说明了H.264和HEVC之间的相似性。
在这里插入图片描述
两种编码器都会在纹理特征重要的部分进行分割,在信息较少的部分保持原始大小。通过这种方式,我们可以使用从H.264流中提取的信息来确定CU是否需要拆分。在这个过程中,我们可以通过机器学习显著提高我们的预测。

在帧间预测中,同质区域更可能由较大的块表示。通过对H.264/AVC码流最终分割结果的观察,粗分割通常应用在运动平滑的区域,导致剩余能量较小。如图3所示,HEVC为0到3的四种深度范围内的树单元编码开辟了一种新方法。深度值取决于编码单元的大小,而64x64表示深度0。与H.264中固定大小的MBs进行了比较。该方法对兴趣内容具有较好的适应性。当深度为2时,CU的大小为MB,即16x16。这样就可以通过H.264和HEVC建立CU深度模式映射。直观地说,如果在H.264中对16x16的MBs进行了划分,那么相邻的MBs也进行了划分,那么相应的CU至少要划分到深度2。反过来,CU甚至可能不会被划分为深度1。
在这里插入图片描述

提出的算法

正如在第二节中简要介绍的,x264和x265之间的模式映射非常有意义。H.264中16x16大小的MBs可以映射为同帧中x265编码器中对应位置的16x16单元。在H.265/HEVC中,两种编码规则之间必须存在一定的相关性才能支持深度选择。因此,由于有价值的映射,转码框架可以以相对较快的速度工作良好。

系统结构:
采用IPPP帧结构,提出了一种基于JM解码器和x265编码器的H.264/AVC到H.265/HEVC转码框架。如图4所示,我们在接收流时首先对流进行解码。在解码过程中,所有需要的信息都从流中提取并存储在x265编码器中。然后对提取的特征进行常规计算,并将其作为我们提出的基于学习的模型的输入。基于学习的模型就像一个黑盒,输出精确的指定深度。然后x265精确计算指定深度的RD代价,而不是递归计算所有深度的RD代价。传统上,为特定的CTU计算最佳CU深度是复杂而繁琐的。我们需要遍历从8x8到64x64的所有大小的CTU,计算RD成本并相互比较,以找到最优的选择。
在这里插入图片描述
使用SVM作为CU深度映射的深度预测:
该算法基于模式映射,特别是H.264和HEVC之间的CU深度选择。

如图4所示,所提算法的总体框架分为两部分:(i) H.264到HEVC的转码。(ii)训练最佳CU深度映射模型。首先使用JM解码器对输入流进行解码,并在前期工作的基础上提取特征。Eduardo Peixoto提出,MV相位方差和DCT系数也可以帮助预测深度。我们尝试将这些特征加入到SVM模型中,以提高准确率。结果显示BDRATE增加了。由于特征与视频之间的相关性可能紧密或微弱,视频与MV相位方差之间相对较弱的相关性可能会对CU深度决策产生负面影响。对于快速CU深度决策来说,选择正确合适的特征并获得良好的结果比使用所有特征更合理。因此,该算法使用分区和MB信息。

这些特征可以分为三类:(i) CTU的QP值,CTU的QP值在22 ~ 37之间,我们将其分为四类(22,27,32,37)。由于QP值对结果有很大影响。(ii)表示数据流中Skip或16x16 Mb大小的Mb类型(iii)表示具体Mb的详细信息的分区类型(16x8,8x16,8x8 Mb大小)。由于H.264需要16mb的数据流,考虑到特定区域中相邻Mb的空间相关性,并构成16x16 Mb到64x64 CTU之间的CU深度映射,因此需要考虑MBs的相邻特征。如图5所示,由于HEVC的CTU采用了表示深度1和0的两种尺寸,因此我们使用32x32和64x64尺寸作为范围来计算不同相邻MBs之间的空间相关性。在32x32和64x64的情况下,以16x16为基本单元计算两个特征的和和方差。因为和代表深度0到1的划分,而方差更多地反映了深度2到3。当我们获得特征时,首先预测QP,并根据QP值进入不同的模型。对于不同的QP值,求和和方差计算函数相同,具体值不同。
在这里插入图片描述
图6给出了SVM训练和预测的具体过程。如上所述,提取三类特征并进行分类。然后根据这些特征的空间相关性对其进行预处理;计算不同尺度MBs的和和方差。在支持向量机(SVM)的基础上训练模型,由支持向量机(SVM)训练特征得到CU深度预测映射模型。该模型根据不同特征的范围输出指定的深度。在训练过程中,采集大量训练视频的特征作为SVM训练模型的输入。如图6所示的第二步,预处理后的特征可能包括不同尺度的特征之和和方差。我们计算4个较小块在一定尺度下的值的总和,以及一个较小块与其他3个较小块的方差,作为我们的预处理。所有特征的组合可能有上万种,每个特定特征的范围可能非常大,每个特征的波动范围也很大。SVM训练模型首先给出所有特征的组合及其对应的深度。
在这里插入图片描述
但我们不会计算特征的所有组合,因为在许多情况下,输出深度可能会发生变化,即使其中一个特征只有一点点变化。这可能会导致判断上的一些错误。因此,当其中一两个特征在一定范围内发生变化而深度不变时,将这些特征与其对应的深度进行组合。

提前跳过和提前剪枝:
SVM训练模型将根据输入计算特征并获得指定的深度。然后将此深度设置为在x265中执行的深度,以进行提前跳过和提前修剪。

深度范围从0到3,深度0表示64x64的尺寸,而深度3将尺寸缩小为8x8。当预测深度介于1到3之间时,将执行早期跳跃。如果我们跳过不必要的深度,可以节省大量不必要的计算。当深度小于预测深度时,跳过所有PU模式的RD代价计算。

图7描述了所提算法的过程,标志EP表示CU分裂提前结束。它表示早期剪枝,预测深度首先计算所有PU模式,我们假设最小RD成本模式必须存在于此深度。超过这个深度的可以放弃。x265采用递归四叉树编码策略对图像块进行划分。当EP等于1时,递归停止,这意味着进行剪枝。

该算法还采用了决策树的动态剪枝方法来降低预测误差。这意味着可能需要考虑一些特殊情况。图6列出了特征的预处理结果。其中,一些组合可能导致模糊预测。当特征表明预测深度至少为2时,如果16x16 CU的和和方差都超过一定的阈值。深度可以转到2或3。在这种情况下,EP被赋值为0,只会多计算一个深度。这意味着深度2和3将被计算。在保证编码速度的前提下,大大降低了预测误差。
在这里插入图片描述

实验结果

由于之前的工作和分析,所提算法没有在H.265/HEVC参考模型(HM)上实现,该科学模型不适合实际应用。我们采用x265作为基准编码器,而不是HM,因为它在工业上的常用。x265是HEVC编码的开源实现,目标是在基于通用多核CPU平台上进行实时编码。因此,在现代多核计算机上,x265的编码速度几乎是原始HM的数百倍。目前x265已经被FFMPEG、VLC等著名工具所使用。

对于转码框架,首先使用JM对流进行解码,提取信息,因为JM可以获得更多的特征,且解码速度较快。

为了测试算法的效果,使用4个QPs(22,27,32,37)对所有测试用例进行编码和比较,x265采用相同的QPs。我们定义了两个参数来比较性能和分析质量退化。他们是PSNR和Bits。定义如公式 1 和 2
在这里插入图片描述
为了使结果更加直观和令人信服,我们计算了BD-PSNR。采用了应用最广泛的Bjontegaard失真度-psnr (BD-PSNR)[8]为了评估编码效率的提高,时间节省如下公式 3 表示
在这里插入图片描述

利用B类和E类的所有标准测试序列,每个类中只测试一个视频,训练其他视频,建立SVM训练模型。我们用这种方式交叉验证结果。在测试和验证算法的过程中,通过检测原始深度和预测深度来修正算法以提高精度。我们可以从我们的方法中推断出深度0和1一定达到了真实的深度,因为深度0和1占据了大部分的深度,并且会显著地影响结果。显然,要更准确地预测深度0和1要简单得多。实验结果为我们的代码转换架构提供了一个相对较好的映射表。

表1展示了算法的运行结果。在BD-PSNR仅下降0.078dB的情况下,平均节省了x265 41%的编码速度。在所有测试序列中,720p序列的编码时间节省较少,BD-PSNR值增加较多。
在这里插入图片描述
分辨率在一定程度上影响了转码算法的性能,可以作为转码算法的一个特征,因为以往的实验大多是在速度非常慢的HM上进行的。基于x265的实验结果更具有参考价值和实用性。

图8展示了本文算法和x265全rdo预置的RD曲线。基于transcoding的CU映射算法的性能与x265相当。码率较低时,码率失真性能略有下降。在节省编码速度和码率性能之间取得了很好的折中,BD-PSNR平均损失不超过0.08dB。
在这里插入图片描述

结论

针对H.264到H.265的转码,提出了一种基于学习的快速CU判决算法。该方法为基于机器学习的快速转码提供了一种新的途径。在转码框架中,整个算法包括三个重要方面:(1)首先经过JM解码的比特流;针对x264中每个特定的16x16 MB,提取了几个重要的特征。(2) x265跳过了不必要的CU深度,即深度小于上面提到的确定深度。这些深度的计算是不需要的。直接跳到确定的深度,无需冗余计算。(3)如果确定的深度不是上一个深度,可以放弃后续的深度计算。换句话说,只计算选定的深度。跳过CU和提前剪枝可以在不影响编码性能的前提下降低x265编码的复杂度。实验结果表明,在比特率损失很小的情况下,该算法可以节省40%以上的编码时间。进一步的工作将集中在基于4k甚至8k视频的快速PU决策映射上,以满足时代的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/272534.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CP2102 驱动安装指南

现在的电脑上已经很少有串口了,在嵌入式开发中经常使用 USB 转串口芯片作为电脑与嵌入式板卡通信的桥梁,CP2102 是一款常见的高端 USB 转串口芯片,要在电脑上使用该芯片功能需要安装驱动程序。 驱动下载 从 官网下载: 驱动安装 安…

HTML5+CSS3+JS小实例:网页手电筒

实例:网页手电筒 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><m…

DBAPI个人版如何升级到企业版

安装好企业版软件&#xff0c;并启动 注意要新建mysql数据库&#xff0c;执行新版本的ddl_mysql.sql脚本 在旧版本系统中分别导出数据源、分组、API&#xff0c;得到3个json文件 注意全选所有的数据导出 在新版本系统中导入数据源 在新版本系统中导入分组 进入分组管理菜单&…

ioDraw AI:思维导图、流程图、序列图、类图、饼图,一应俱全

前言 在信息爆炸的时代&#xff0c;我们每天接收着大量的信息&#xff0c;如何高效地整理和呈现这些信息成为了一项重要的挑战。思维导图作为一种可视化思维工具&#xff0c;能够帮助我们快速构建和整理复杂的信息结构&#xff0c;便于我们理解和记忆。ioDraw AI绘图工具正是基…

跟着LearnOpenGL学习12--光照贴图

文章目录 一、前言二、漫反射贴图三、镜面光贴图3.1、采样镜面光贴图 一、前言 在跟着LearnOpenGL学习11–材质中&#xff0c;我们讨论了让每个物体都拥有自己独特的材质从而对光照做出不同的反应的方法。这样子能够很容易在一个光照的场景中给每个物体一个独特的外观&#xf…

Java学习:多线程编程

一、概念 进程&#xff1a;它是运行中的程序。有的程序启动后可能有多个进程。Java程序的执行时&#xff0c;首先启动一个独立的JVM进程。该进程任务是解析并执行Java字节码。进程各有独立地址空间&#xff0c;JVM进程间不能访问对方所拥有内存空间。 线程&#xff1a;一个进程…

ros2中ros_gz_bridge/gazebo安装的注意事项

这个搞错了&#xff1a;这个是安装ros_gz_bridge的&#xff0c;不是安装gazebo的 AT:如果是安装的Harmonic&#xff0c;在安装ros_gz_bridge的时候要从源码编译 ros2完整版里面好像已经包含了gazebo的一个版本 包名应该就是叫ros-humble-ros-ign-gazebo 所以gazebo是作为一个普…

IRIS、Cache系统类汉化

文章目录 系统类汉化简介标签说明汉化系统包说明效果展示类分类%Library包下的类重点类非重点类弃用类数据类型类工具类 使用说明 系统类汉化 简介 帮助小伙伴更加容易理解后台系统程序方法使用&#xff0c;降低代码的难度。符合本土化中文环境的开发和维护&#xff0c;有助于…

Openstack开启虚拟化嵌套

好久没写东西了&#xff0c;前两天我准备在虚机上装一个vmware 的虚机&#xff0c;结果失败了&#xff0c;提示如下&#xff0c;由于我是虚机上安装虚机&#xff0c;我的宿主机肯定是开启了vt-x和vt-d的 查了一些资料&#xff0c;这个需要打开nested,先看看nested返回是否为Y&a…

【Linux系统基础】(2)在Linux上部署MySQL、RabbitMQ、ElasticSearch等各类软件

实战章节&#xff1a;在Linux上部署各类软件 前言 为什么学习各类软件在Linux上的部署 在前面&#xff0c;我们学习了许多的Linux命令和高级技巧&#xff0c;这些知识点比较零散&#xff0c;同学们跟随着课程的内容进行练习虽然可以基础掌握这些命令和技巧的使用&#xff0c;…

【Linux基础】6. 进程管理工具

文章目录 【 1. 查询进程 】【 2. 终止进程 】【 3. top 进程监控 】【 4. pmap 分析线程栈 】【 5. 综合运用 】 任何进程都与文件关联&#xff1b;我们会用到 lsof 工具&#xff08;list opened files&#xff09;&#xff0c;作用是列举系统中已经被打开的文件。在 linux环境…

【MySQL】数据库之日志管理、备份与恢复

目录 一、MySQL的日志管理 二、MySQL的完全备份与恢复 物理冷备份&#xff08;完全备份&#xff09;与恢复 数据库上云迁移的方案&#xff1f; 逻辑热备份&#xff08;完全备份&#xff09;与恢复 三、MySQL的增量备份与恢复 1、手动增量备份 2、脚本增量备份 3、增量备…

华为鸿蒙的发展史:从初创到全球领先的科技之旅

华为鸿蒙操作系统的发展历程堪称科技领域的传奇。作为中国科技产业的璀璨明星&#xff0c;鸿蒙系统在面临外部压力与挑战的同时&#xff0c;凭借着华为的坚定信念与不懈努力&#xff0c;逐步崛起成为全球领先的智能终端操作系统。本文将带您深入了解华为鸿蒙的发展史&#xff0…

ThreadPoolExecutor使用浅谈

1. 基础介绍 ThreadPoolExecutor是Python标准库concurrent.futures模块中的一个类&#xff0c;用于实现线程池的功能。 ThreadPoolExecutor模块相比于threading等模块&#xff0c;通过submit方法返回的是一个Future对象&#xff0c;它代表了一个未来可期的结果。通过Future对…

一文教你如何绕过统一认证拿到赏金

1.漏洞背景 统一认证通常是一种安全措施&#xff0c;用于验证用户的身份&#xff0c;以确保只有授权的用户才能访问敏感或受限的信息和服务。 当你尝试访问某个需要特定权限的网站或服务时&#xff0c;系统会将你重定向到一个统一认证页面。在这里&#xff0c;你需要输入你的登…

【鸿蒙应用ArkTS开发系列】- 沉浸式状态栏实现

文章目录 一、前言二、封装沉浸式状态栏管理类1、创建Demo工程2、封装状态栏管理类 三、编写页面实现沉浸式状态栏效果1、存储windowStage实例2、Page页面中实现沉浸式开启关闭功能2.1、开启沉浸式状态栏2.2、设置标题栏偏移量 一、前言 在应用开发中&#xff0c;页面跟状态栏…

Java代码审计鉴权漏洞InterceptorFilterShiroJWT(非常详细!!)

目录 0x00 前言 0x01 鉴权方式&审计思路 1、目前主流的鉴权方式 2、鉴权漏洞审计思路 0x02 Interceptor鉴权审计 - NewbeeMall电商系统 1、项目介绍 - NewbeeMall 2、Interceptor 补充介绍 3、NewbeeMall - Interceptor鉴权 - 代码审计 0x03 Filter鉴权审计 - 华…

PostGIS学习教程十五:几何图形的有效性

PostGIS学习教程十五&#xff1a;几何图形的有效性 在90%的情况下&#xff0c;“为什么我的查询给了我一个’TopologyException’错误"的问题的答案是"一个或多个输入的几何图形是无效的”&#xff0c;这就引出了这样一个问题:几何图形"无效"是什么意思&a…

JAVA复习三——CH5 Java Collection 、CH6 MultiThread

CH5 Java Collection(集合) 5.1 Java集合框架&#xff08;位于java.util包中&#xff09; 图一 集合框架图 从上面的集合框架图可以看到&#xff0c;Java 集合框架主要包括两种类型的容器&#xff0c;一种是集合&#xff08;Collection&#xff09;&#xff0c;存储一个元素集…

pytest分布式执行插件 pytest-xdist 的高级用法

想要使用多个CPU核心来进行测试&#xff0c;可以使用 -n 参数( 或者 --numprocesses) (使用8个核心来跑测试用例) 1 pytest -n 8 使用 -n auto 参数可以利用电脑的所有核心来跑测试用例 测试时使用的算法可以根据--dist命令参数定制&#xff1a; --dist load(默认选项)&…