系统化学习 H264视频编码(01)基础概念

说明:我们参考黄金圈学习法(什么是黄金圈法则?->模型 黄金圈法则,本文使用:why-what)来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法,理论方面会更多地讲清楚 音视频中概念的起源以及各个概念的联系。知其然,知其所以然。同时更强调知识系统的建立。

针对本文,我们先解决最关键的问题,那就是为什么要进行视频编码?视频编码解决什么问题?

1 为什么要进行音视频的编码?(why)

音视频编码主要解决了以下关键问题:

  • 减少数据量和降低传输带宽:通过压缩技术显著减少原始音视频数据的大小,适应有限的网络带宽,实现高效传输。
  • 提高存储效率:压缩数据使得在相同存储空间内可以保存更多的音视频内容,提升了存储设备的使用效率。
  • 消除冗余:编码技术通过预测和统计方法减少音视频中的时间和空间冗余,进一步降低数据量。
  • 适应不同网络和设备,保证质量:编码允许根据不同网络条件和设备性能调整音视频流的质量,同时保持可接受的数据质量。

有了前面的了解,接下来我们开始研究H264的基础知识:H264的发展、视频封装格式和文件格式、。也就是what。

2 H264基础知识(what)

2.1 视频编码发展史

2.1.1 视频编码发展史简介(what)

H.264编码作为当前广泛使用的视频编码标准,其发展历史可以追溯到早期的视频编码技术。以下是从H.261和MPEG-1一直到H.264、H.265的演进历史。这里用一张图来表示视频编码发展史,具体如下所示:

其中涉及编码格式的关键内容解释如下:

  • H.261:1988年,国际电信联盟ITU-T发布了H.261标准,这是首个为视频会议和可视电话等应用设计的低码率视频编码标准。H.261采用了基于波形的混合编码方法,引入了宏块(Macroblock)和基于宏块的运动补偿(Motion Compensation),奠定了现代视频编码的基础。
  • MPEG-1:1991年,国际标准化组织ISO推出了MPEG-1标准,主要用于视频信息的存储和传输,例如VCD。MPEG-1继承了H.261的一些特性,并引入了双向预测帧和亚像素精度的运动补偿等新技术。
  • H.263:作为H.261的改进版,ITU-T在1995年推出了H.263标准,针对低于64kb/s的窄带通信信道进行了优化。H.263增加了半像素运动补偿和更高效的编码模式,提高了压缩效率。
  • MPEG-2:1994年,MPEG-2标准发布,它在MPEG-1的基础上增加了对隔行扫描的支持,适用于DVD视频、数字电视和HDTV传输系统。MPEG-2成为了全球广泛使用的视频编码格式。
  • MPEG-4:1999年,MPEG-4 Visual标准发布,它是一个更为复杂和灵活的编码框架,支持多种Profile和Level,从简单的编码到支持4K分辨率和高色彩采样的编码。
  • H.264/AVC:经过多年的研究和发展,H.264/AVC在2003年由ITU-T和ISO/IEC联合发布。H.264结合了之前标准的优点,并引入了新的编码技术,如更灵活的宏块划分、更多的参考帧、先进的帧内预测和高压缩比的数据压缩算法。H.264在压缩效率、图像质量和网络适应性方面都有显著提升,成为互联网上视频编码的主流标准。
  • H.265/HEVC:H.265编码的历史可以追溯到2004年,当时ITU-T视频编码专家组(VCEG)开始研究新技术以创建新的视频压缩标准5。2005年,VCEG开始将某些主题指定为“关键技术领域”(KTA)以供进一步研究,并建立了KTA代码库来评估这些技术15。2009年,实验结果显示,与H.264/AVC High Profile相比,平均比特率减少了约20%,这促使MPEG与VCEG合作启动了新的标准化工作5。2013年1月,HEVC标准的第一个版本被批准并于同年6月发布

H.264的发展历程是视频编码技术不断进步和优化的过程,每一次标准的更新都旨在提供更高的压缩效率和更好的图像质量,同时适应不断变化的网络和存储需求。随着技术的发展,H.264之后又出现了H.265/HEVC等更高效的编码标准,继续推动视频编码技术向前发展。

2.1.2 视频编码持续发展,到底发展了个啥?(why)

从H.261和MPEG-1到H.264、H.265的演进,主要解决和应对以下几个问题和需求:

  • 提高压缩效率:随着技术的发展和应用需求的提升,对视频质量的要求越来越高,同时对存储和传输带宽的需求也越来越大。每一代新的编码标准都致力于提供更高的压缩效率,以减少所需的存储空间和传输带宽。
  • 支持更高分辨率和帧率:随着显示技术的进步,消费者对高清晰度视频(如HD、4K、8K)的需求不断增长。新的编码标准需要能够支持这些更高分辨率和帧率的视频内容,同时保持合理的文件大小和传输速率。
  • 改善视频质量:在相同或更低的比特率下,新一代编码标准旨在提供更好的视频质量,包括更少的压缩伪影、更高的色彩精度和更宽的动态范围。
  • 适应新的应用场景:随着互联网和移动设备的普及,视频内容的分发和消费方式发生了变化。新的编码标准需要适应流媒体、实时通信、移动视频等新兴应用的需求。
  • 解决版权和许可问题:随着市场对开放标准的需求增加,新一代编码标准也在寻求更合理的版权和许可模式,以降低采用新技术的门槛。
  • 提升错误恢复和网络适应性:网络环境复杂多变,新的编码标准需要更好地处理数据传输中的错误和丢包,提供更强的网络适应性和错误恢复能力。
  • 支持并行处理和硬件加速:随着计算硬件的发展,新的编码标准需要更好地利用多核处理器、GPU和其他硬件加速技术,以提高编码和解码的效率。
  • 满足国际标准和兼容性:为了确保全球范围内的互操作性和兼容性,视频编码标准需要经过国际标准化组织的严格审查和认可。

总的来说,大框架是已经固定了的。视频编码标准的演进其实就是一个不断追求更高效率、更好质量、更广泛应用和更合理成本的过程。每一代新标准的推出都是对现有技术的改进和对新需求的响应。大框架不变,细节处持续迭代更新。

2.1.3  常见的视频编码方式总结

随着历史不断的演进,一些标准慢慢消失,一些标准被保留下来,接下来介绍那些被最终保留下来的历史赢家:

  • H.264(AVC,Advanced Video Coding):由ITU-T组织主导,是一种视频压缩标准,广泛使用的高精度视频的录制、压缩和发布格式。
  • H.265(HEVC,High Efficiency Video Coding):由ITU-T组织主导,也是一种视频压缩标准 ,是H.264/MPEG-4 AVC 的继任者。HEVC被认为不仅提升图像质量,同时也能达到H.264/MPEG-4 AVC两倍之压缩率 (等同于同样画面质量下比特率减少了50%),可支持4K分辨率 甚至到超高画质电视 ,最高分辨率 可达到8K的分辨率。
  • MPEG系列(MPEG-1、MPEG-2、MPEG-4):由ISO下属的MPEG组开发,MPEG-1主要解决多媒体的存储问题,它的成功制定,使得以VCD和MP3为代表的MPEG-1产品迅速在世界范围内普及。MPEG格式目前有三个压缩标准;MPEG-2用于HDTV 以及数字电视等;MPEG-4是为了播放流式媒体的高质量视频而专门设计的,以求使用最少的数据获得最佳的图像质量。(为啥没有MPEG-3编码,因为这个项目原本目标是为高分辨率电视 (HDTV )设计,随后发现MPEG-2已足够HDTV应用,故MPEG-3的研发便中止)
  • VP8、VP9:谷歌研发,主要用于分别对标 H264编码 和 H265编码,后针对VP9编码进行多项优化后推出新编解码器AV1(AV1是Google VP10、Mozilla Daala以及Cisco Thor三款开源编码项目共同研发成果。AV1打破了之前编码标准中传统的二维运动矢量模型的限制,第一次引入了仿射变换运动模型,不仅可以描述平移运动,同时可以更好的表述如旋转、缩放等更加复杂的运动,有效的提升了视频编码效率)

2.2 视频封装格式和文件格式解读

2.2.1 什么是视频封装格式和文件格式

视频封装格式,也常被称为容器格式(Container Format),是一种将视频、音频、字幕以及其他流数据封装在一起以便存储和传输的文件格式。封装格式并不涉及视频或音频数据的具体编码方式,它只是定义了如何将这些数据组织起来。像AVI(Audio Video Interleaved)、MPEG(Moving Picture Experts Group)、WMV(Windows Media Video)是⼀种视频封装格式,相当于⼀种储存视频信息的容器。

视频文件格式,是指用于存储和传输视频数据的特定方式,它定义了视频文件如何组织数据,包括视频编码、音频编码、元数据、字幕和其他流信息。比如 我们知道Windows系统中的视频⽂件名都有后缀,XXX.avi、XXX.rm、XXX.flv等。

常见的几种视频封装格式和文件格式之间的对应关系如下表所示:

2.2.2 为什么会有一堆封装格式和文件格式的标准?

从技术角度来看,一种标准是最佳的,然而历史从来不会这么发展。从企业发展和市场角度来看,存在多种视频编码和封装标准的原因主要包括:

  • 市场竞争:不同的企业可能开发自己的标准来获得市场竞争优势,通过技术创新来吸引用户和客户。
  • 专利和授权:技术标准可能涉及专利权,企业通过开发自己的标准来控制专利授权,从而获得潜在的许可收入。
  • 满足特定需求:不同的市场和应用场景可能需要特定的功能和特性,多种标准可以更好地满足这些多样化的需求。
  • 创新推动:标准的竞争可以促进技术的创新和发展,推动整个行业向前发展。
  • 兼容性和过渡:在技术演进过程中,为了保持向后兼容性,可能需要开发新的标准来逐步替代旧标准。
  • 行业分割:不同的行业可能根据特定的需求和规范发展自己的标准。
  • 法规和政策:政府法规和政策可能影响技术标准的发展和采用。
  • 开放标准与专有标准:开放标准和专有标准之间的竞争,其中开放标准通常免费提供给所有用户,而专有标准可能涉及版权和许可费用。
  • 风险分散:企业可能参与多个标准的发展,以分散技术投资风险。
  • 全球化挑战:全球市场存在多样性,不同的地区可能偏好或要求使用不同的标准。
  • 用户习惯:用户可能对特定格式或标准有使用习惯,改变这些习惯需要时间和教育成本。
  • 生态系统建设:围绕特定标准可能已经建立了完整的生态系统,包括硬件、软件、工具和专业知识,这为新标准的采纳带来挑战。

尽管从技术角度来看,一种统一的标准可能是最理想的,但由于上述市场和商业因素,导致了多种标准并存的现象。随着技术的发展和市场的变化,一些标准可能会逐渐被淘汰或合并,而新的标准可能会出现以满足新的需求。

2.2.3 封装格式的作用是什么?

一般视频文件里不光有视频,还有音频,封装格式的作用就是把视频和音频打包起来。 所以我们先要做解封装格式操作,看有哪些视频流和哪些音频流,此时的音频流和视频流都还是压缩数据,是需要解码的。从封装格式到一个视频显示出来的流程如下所示:

2.3 宏块的概念

2.3.1 什么是宏块?(what)

宏块是视频编码中的基本处理单元,它是视频帧中划分出来的固定大小的矩形区域,用于进行编码操作,如预测、变换和量化等,以实现数据压缩。

宏块(macro block)的理解:视频帧被送到H264 编码器的缓冲中时,编码器为每一幅图片划分宏块。H264 编码默认是使用 16X16 像素大小的区域作为一个宏块(注意:H265使用的是最大64X64像素大小的区域),视频中的一帧图像划分成宏块的效果如下:

宏块划分后的整体效果

同时在上图中我们实际上还可以在 16X16 像素的宏块上更划分出更小的子块。子块的大小可以是 8X16、 16X8、 8X8、 4X8、 8X4、 4X4非常灵活。而再次划分成子块的目的就是用很小的数据去记录这个数据。

2.3.2 为什么引入宏块?(why)

引入宏块作为视频编码的基本单元,主要原因包括:

  • 提高压缩效率:宏块允许编码器对视频帧进行局部压缩,利用空间上的冗余来减少数据量。
  • 实现数据的独立处理:宏块作为独立的处理单元,可以并行处理,提高了编码和解码的效率。
  • 适应不同区域特性:视频帧的不同区域可能具有不同的纹理和运动特性,宏块允许编码器对这些不同区域应用不同的编码策略。
  • 简化编码流程:宏块提供了一种标准化的方法来组织和处理视频数据,简化了编码器的设计和实现。
  • 优化预测和变换操作:宏块的大小和划分方式可以优化帧内预测和变换操作,进一步提高压缩性能。

2.4 YUV格式 vs RGB格式

2.4.1 什么是YUV格式、 RGB格式?(what)

YUV格式: YUV是一种颜色编码系统,用于将颜色信息分解为亮度(Y)、蓝色色差(U)、红色色差(V)三个分量。这种格式主要用于视频和图像的编解码过程中,因为它能够更有效地表示颜色信息,并且在压缩时可以利用人眼对颜色和亮度敏感度的不同来减少数据量。

RGB格式: RGB代表红色(Red)、绿色(Green)、蓝色(Blue),是一种基本的颜色模型,用于通过三种基本颜色的光的叠加来表示其他颜色。在数字图像和显示设备中,RGB格式用来存储和显示彩色图像,每个像素由红、绿、蓝三个颜色通道的值组成,这些值组合起来可以表示出各种颜色。

接下来用一张图来表示两者之间的区别,如下所示:

2.4.2 为什么视频编码使用YUV格式,而不是RGB格式?(why)

H264视频编解码中使用YUV而不是RGB的原因主要包括:

  • 人类视觉特性:YUV格式利用了人类视觉系统对亮度信息比色度信息更敏感的特性。人眼对亮度的变化感知更为明显,而对颜色的细微差别则不太敏感。因此,可以在色度信息上应用更多的压缩,而对视觉质量的影响较小。
  • 压缩效率:在YUV格式中,亮度信息(Y)与色度信息(U和V)分离,可以对它们分别进行不同的处理和压缩。通常色度信息的采样率低于亮度信息,这样可以减少数据量而不会显著影响视觉质量。
  • 减少冗余:在自然图像和视频中,相邻像素之间的亮度变化通常小于颜色变化。YUV格式通过分离亮度和色度,可以更有效地减少这种空间上的冗余。
  • 适应不同显示设备:YUV格式更适合广播和电视系统,这些系统通常基于YUV或类似的颜色空间。使用YUV格式可以直接与这些系统兼容,简化了从数字到模拟信号的转换。
  • 编码效率:在视频编码标准如H.264和H.265中,YUV格式的亮度和色度分量可以独立进行编码,利用它们各自的统计特性来提高编码效率。
  • 灵活性:YUV格式提供了更大的灵活性来应用不同的编码策略,例如对亮度和色度分量使用不同的量化级别和预测模式。

总之,YUV格式在视频编解码中的使用,主要是为了提高压缩效率,同时保持或提升视频的视觉质量,并适应不同的显示和传输需求。

有了这些基础,我们再进一步去H264编码中更深一层的概念,见下一篇文章:

H264视频编码(02) I帧 P帧 B帧 引入及相关概念解读-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/788112.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于java+springboot+vue实现的校园二手书交易平台(文末源码+Lw)287

摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自…

【hive】数据采样

参考https://hadoopsters.com/how-random-sampling-in-hive-works-and-how-to-use-it-7cdb975aa8e2,可以直接查看原文,下面只是对原文进行概括和实际性能测试。 1.distribute by sort by2.测试3.map端数据过滤优化采样 在说数据采样之前,需要…

03_Shell变量

【Shell】03_Shell变量 一、环境变量 Linux系统配置文件(全局配置文件和用户个人配置文件)中定义的变量,提供给所有Shell程序使用 1.1、全局环境变量 1.1.1、配置文件位置 /etc/environment /etc/bashrc(或者/etc/bash.bashrc…

PTA - sdut-使用函数求a+aa+aaa++⋯+aa.....aaa(n个a)之和

题目描述: 给定两个均不超过9的正整数a和n,要求:编写函数fn(a,n), 求aaaaaa⋯aa⋯aa(n个a)之和,fn须返回的是数列之和。 函数接口定义: def fn(a,n):其中, a 和 n 都是传入的参数…

IEC62056标准体系简介-2.IEC62056标准体系及对象标识系统(OBIS)

1. IEC 62056标准体系 IEC 62056标准体系目前共包括六部分,见图1: 第61部分:对象标识系统第62部分:接口类第53部分:COSEM应用层第46部分:使用HDLC(High Level Data Link Control)协…

39 线程库

目录 thread类的简单介绍线程函数参数锁线程交替打印原子性操作库无锁CAS智能指针的线程安全单例模式的线程安全 1. thread类的简单介绍 在c11之前,涉及到多线程问题,都是和平台相关的,如windows和linux下各有自己的接口,这使得…

【STM32/HAL】嵌入式课程设计:简单的温室环境监测系统|DS18B20 、DHT11

前言 板子上的外设有限,加上想法也很局限,就用几个传感器实现了非常简单的监测,显示和效应也没用太复杂的效果。虽说很简单,但传感器驱动还是琢磨了不久,加上串口线坏了,调试了半天才发现不是代码错了而是…

多标签问题

一、多标签问题与单标签问题的区别: 多标签问题是单标签问题的推广。 举个例子,同时识别图片中的小汽车,公交车,行人时,标签值有三个:小汽车,公交车,行人。 单标签问题仅对一个标签…

网络安全——防御实验

防御实验一 拓扑结构展示: 一、 根据题目,先为办公区做安全策略主要策略有以下几点: 1、书写名称和描述,名称和描述要明确,让除本人以外的人也能理解 2、确定源地址为办公区,目标地址为DMZ区 3、确定时间…

utf8mb4和utf8的不同、若依框架,代码生成器,gitee,前端vue的下载、修复和启动(寻求大佬帮助若依框架三、2.3)

2024.7.9 一、数据库的排序和统一问题。utf8mb4和utf8的不同1.1 发现问题1.2 解决问题-在idea中用sql生成器,生成sql语句,然后在里面修改1.3 utf8和utf8mb4的区别 二、若依前后端框架。代码生成器(还没研究懂,但有三个方案&#x…

2024前端面试真题【JS篇】

DOM DOM:文本对象模型,是HTML和XML文档的编程接口。提供了对文档的结构化的表述,并定义可一种方式可以使从程序中对该结构进行访问,从而改变文档的结构、样式和内容。 DOM操作 创建节点:document.createElement()、do…

ER模型理论和三范式

ER模型理论和三范式 各种关系多对一一对一一对多多对多 三范式理论函数依赖完全函数依赖部分函数依赖传递(间接)函数依赖 第一范式:属性(表字段)不可切割第二范式:不能存在 部分函数依赖(都存在完全函数依赖…

最全windows提权总结(建议收藏)

当以低权用户进去一个陌生的windows机器后,无论是提权还是后续做什么,第一步肯定要尽可能的搜集信息。知己知彼,才百战不殆。 常规信息搜集 systeminfo 查询系统信息hostname 主机名net user 查看用户信息netstat -ano|find "3389&quo…

充电宝哪个牌子公认质量好?哪家充电宝好用?4款口碑好充电宝

在如今这个电子设备不离手的时代,充电宝成为了我们生活中的必备品。然而,面对市场上琳琅满目的充电宝品牌和型号,选择一款质量可靠、性能出色的充电宝并非易事。大家都在问:充电宝哪个牌子公认质量好?哪家充电宝好用&a…

【鸿蒙学习笔记】UIAbility组件概述

官方文档:UIAbility组件 目录标题 UIAbility组件概述 [Q&A] 什么是UIAbility?声明周期UIAbility组件-启动模式UIAbility组件-与UI的数据同步 UIAbility组件概述 [Q&A] 什么是UIAbility? UIAbility组件是一种包含UI界面的应用组件&a…

红酒知识百科:从入门到精通

红酒,这个深邃而迷人的世界,充满了无尽的知识与奥秘。从葡萄的选择、酿造工艺,到品鉴技巧,每一步都蕴藏着深厚的文化底蕴和精细的技艺。今天,就让我们一起踏上这场红酒知识之旅,从入门开始,逐步…

量产工具一一UI系统(四)

目录 前言 一、按钮数据结构抽象 1.ui.h 二、按键处理 1.button.c 2.disp_manager.c 3.disp_manager.h 三、单元测试 1.ui_test.c 2.上机测试 前言 前面我们实现了显示系统框架,输入系统框架和文字系统框架,链接: 量产工具一一显…

docker笔记1

docker笔记1 一、为什么要学docker?二、docker是什么三、docker安装 一、为什么要学docker? 在过去,开发人员编写的代码在不同的环境中运行时常常面临一些问题,例如“在我的机器上可以运行,但在你的机器上却不行”的情况。这种问题部分原因…

如何在 CentOS 上配置本地 YUM 源

引言 CentOS 作为一个流行的企业级 Linux 发行版,依赖 YUM(Yellowdog Updater, Modified)来管理软件包。YUM 源(Repository)是软件包存储和分发的中心,它们通常位于互联网上。然而,在某些情况下…

六、数据可视化—flask框架入门(爬虫及数据可视化)

六、数据可视化—flask框架入门(爬虫及数据可视化) 1,数据可视化简介2,flask(1)创建flask项目(2)开启debug模式(3)通过访问路径传递参数(4&#x…