音视频封装格式解析(1)——H264格式简析,I/P/B帧是什么?H264压缩原理

文章目录

  • 1. H264编码参数
  • 2. H264编码原理
    • 2.1 压缩原理
    • 2.2 编码结构解析
  • 3. NALU结构
  • 4. H264 annexb模式
  • 5. 补充说明
    • 5.1 I帧
    • 5.2 P帧
    • 5.3 B帧

1. H264编码参数

视频质量和⽹络带宽占⽤是相⽭盾的。通常情况下,视频流占⽤的带宽越⾼则视频质量也越⾼,需要的⽹络带宽也越⼤。
评判⼀种视频编解码技术的优劣,是⽐较在相同的带宽条件下,哪个视频质量更好;在相同的视频质量条件下,哪个占⽤的⽹络带宽更少(⽂件体积⼩)。然⽽在我们⾁眼分辨的范围内,当码率⾼到⼀定
程度时,就没有什么差别了。所以码率设置有它的最优值
1)pc视频推荐码率

2)手机端视频推荐码率

2. H264编码原理

假设传入帧率25,19201080,的RGB24图像,需要的带宽是:
1920
1080325 /1024 /1024 = 148.315MB/s = 1186.523Mbps,非常大,所以需要视频压缩和编码技术。
视频由单张图片帧组成,每张图片帧之间的像素块存在相似性,因此可以进行图像压缩。

2.1 压缩原理

H264,采用帧内和帧间压缩(I、P、B帧策略),并采用16*16的分块大小,对视频图像进行压缩编码。
I帧:帧内编码帧,I帧通常是每个GOP的第一个帧,是一个完整图像经过空间压缩后的产物。
P帧:前向预测编码帧,参考前一个(I帧或P帧)的时间冗余信息,以此压缩传输数据量。
B帧:双向预测帧,参考前一个I或P帧及后一个P帧之间的时间冗余信息,以此压缩传输数据量。
压缩率:B>P>I

2.2 编码结构解析

H264为方便网络传输,提供了视频编码和分片策略。
因此H264将其组织成为序列(GOP)、图⽚(pictrue)、⽚(Slice)、宏块(Macroblock)、⼦块(subblock)五个层次。
GOP (图像组)主要⽤作形容⼀个IDR帧 到下⼀个IDR帧之间的间隔了多少个帧。
Reference(参考周期)指两个P帧之间的距离。

IDR:即时编码刷新帧,一个序列的第一个图像叫做IDR图像,IDR都是I帧图像。
核心作用解码重同步,当解码器解码到IDR图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新寻找参数集,开始一个新的序列
IDR之后的图像永远不会使用IDR之前的图像数据进行解码,但I帧可以。

总结:码率不变的前提下,GOP值越⼤,P、B帧的数量会越多,平均每个I、P、B帧所占⽤的字节数就越多,也就更容易获取较好的图像质量;Reference越⼤,B帧的数量越多,同理也更容易获得较好的图像质量
但并不是GOP值越高,图像质量一定越高,但遇到场景切换时,H264编码器自动强制插入一个IDR帧,此时实际的GOP值减小了。并且,P、B帧是由I帧预测过来的,图像中的错误会传播,知道下一个IDR帧才会恢复,所以不宜设置的过大。
同时,由于P、B帧较为复杂,过多的P、B帧会影响编码效率。

(⼀个序列就是⼀段内容差别不是很⼤的图像编码后⽣成的⼀串数据流。当运动变化⽐较少的时候,⼀个序列可以很⻓,因为运动变化的少就代表图像画⾯的内容变动很⼩,所以就可以编⼀个I帧,然后⼀直P帧、B帧了。当运动变化多时,可能⼀个序列就⽐较短了,⽐如就包含⼀个I帧和3、4个P帧。)

3. NALU结构


H264原始码流,由一个接一个的NALU(网络抽象单元)组成。
NALU结构分为两层,包含视频编码层(VCL)和NAL(⽹络提取层)。
视频编码层(VCL即 Video Coding Layer):包括核心压缩引擎和块、宏块于片的语法级别定义,尽可能独立于网络进行高效编码。
网络提取层(NAL即NetWork Abstraction Layer):将VCL产生的比特字符串适配到多元的网络、环境中,覆盖了所有片级以上的语法级别。
RBSP:Raw Byte Sequence Payload。原始字节序列负荷。

SPS:序列参数集,SPS中保存了一组编码视频序列(Coded video sequence)的全局参数。
PPS: 图像参数集,对应的是一个序列中某一副或者某几副图像的参数
I帧、P帧、B帧
发I帧之前,至少要发一次SPS和PPS

在VCL进行数据传输或存储之前,编码的VCL数据被映射或封装进NAL单元。
一个NALU单元=startCode(3、4个字节) + 头部信息(1个字节) + 原始字节序列负荷RBSP

H.264标准指出,当数据流是储存在介质上时,在每个NALU 前添加起始码:0x000001 或 0x00000001,⽤来指示⼀个NALU 的起始和终⽌位置
在这样的机制下,在码流中检测起始码,作为⼀个NALU得起始标识,当检测到下⼀个起始 码时,当前NALU结束。
3字节的0x000001只有⼀种场合下使⽤,就是⼀个完整的帧被编为多个slice(⽚)的时 候,包含这些slice的NALU 使⽤3字节起始码。其余场合都是4字节0x00000001的。


0x68 & 0x1f = 0x07 :sps
0x68 & 0x1f = 0x08 :pps
0x68 & 0x1f = 0x05 :I帧


4. H264 annexb模式

ES–Elementary Streams (原始流) 是直接从编码器出来的数据流
container 容器
H264有两种封装

⼀种是annexb模式,传统模式,有startcode,SPS和PPS是在ES中。
⼀种是mp4模式,⼀般mp4 mkv flv都是mp4模式,没有startcode,SPS和PPS以及其它信息 被封装在container中,每⼀个frame前⾯4个字节是这个frame的⻓度。
很多解码器只⽀持annexb这种模式,因此需要将mp4做转换:在ffmpeg中⽤ h264_mp4toannexb_filter可以做转换。

    // 转成annexb模式
    // 1 获取相应的比特流过滤器
    //FLV/MP4/MKV等结构中,h264需要h264_mp4toannexb处理。添加SPS/PPS等信息。
    const AVBitStreamFilter *bsfilter = av_bsf_get_by_name("h264_mp4toannexb");
    AVBSFContext *bsf_ctx = NULL;
    // 2 初始化过滤器上下文
    av_bsf_alloc(bsfilter, &bsf_ctx); //AVBSFContext;
    // 3 添加解码器属性
    avcodec_parameters_copy(bsf_ctx->par_in, ifmt_ctx->streams[idx]->codecpar);
    av_bsf_init(bsf_ctx);

    av_bsf_send_packet  av_bsf_receive_packet

5. 补充说明

I P B三种帧的说明

5.1 I帧

I帧:帧内编码帧 ,I帧表示关键帧,你可以理解为这⼀帧画⾯的完整保留;解码时只需要本帧数
据就可以完成(因为包含完整画⾯)
I帧特点:

  1. 它是⼀个全帧压缩编码帧。它将全帧图像信息进⾏JPEG压缩编码及传输;
  2. 解码时仅⽤I帧的数据就可重构完整图像;
  3. I帧描述了图像背景和运动主体的详情;
  4. I帧不需要参考其他画⾯⽽⽣成;
  5. I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
  6. I帧是帧组GOP的基础帧(如果为IDR则为第⼀帧),在⼀组中只有⼀个IDR帧,⼀个或多个I
    帧(包括IDR帧);
  7. I帧不需要考虑运动⽮量;
  8. I帧所占数据的信息量⽐较⼤。

5.2 P帧

P帧:前向预测编码帧。P帧表示的是这⼀帧跟之前的⼀个关键帧(或P帧)的差别,解码时需
要⽤之前缓存的画⾯叠加上本帧定义的差别,⽣成最终画⾯。(也就是差别帧,P帧没有完整
画⾯数据,只有与前⼀帧的画⾯差别的数据)

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动⽮量,取预测
差值和运动⽮量⼀起传送。在接收端根据运动⽮量从I帧中找出P帧“某点”的预测值并与差值
相加以得到P帧“某点”样值,从⽽可得到完整的P帧。

P帧特点:

  1. P帧是I帧后⾯相隔1~2帧的编码帧;
  2. P帧采⽤运动补偿的⽅法传送它与前⾯的I或P帧的差值及运动⽮量(预测误差);
  3. 解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
  4. P帧属于前向预测的帧间编码。它只参考前⾯最靠近它的I帧或P帧;
  5. P帧可以是其后⾯P帧的参考帧,也可以是其前后的B帧的参考帧;
  6. 由于P帧是参考帧,它可能造成解码错误的扩散;
  7. 由于是差值传送,P帧的压缩⽐较⾼。

5.3 B帧

B帧:双向预测内插编码帧。B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换⾔之,要解码B帧,不仅要取得之前的缓存画⾯,还要解码之后的画⾯,通过前后画⾯的与本帧数据的叠加取得最终的画⾯。B帧压缩率⾼,但是解码时CPU会⽐较累。

B帧的预测与重构
B帧以前⾯的I或P帧和后⾯的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动⽮量,并
取预测差值和运动⽮量传送。接收端根据运动⽮量在两个参考帧中“找出(算出)”预测值并与
差值求和,得到B帧“某点”样值,从⽽可得到完整的B帧。

B帧特点
1)B帧是由前⾯的I或P帧和后⾯的P帧来进⾏预测的;
2)B帧传送的是它与前⾯的I或P帧和后⾯的P帧之间的预测误差及运动⽮量;
3)B帧是双向预测编码帧;
4)B帧压缩⽐最⾼,因为它只反映两参考帧间运动主体的变化情况,预测⽐较准确;
5)B帧不是参考帧,不会造成解码错误的扩散。
注:I、B、P各帧是根据压缩算法的需要,是⼈为定义的,它们都是实实在在的物理帧。⼀般来
说,I帧的压缩率是7(跟JPG差不多),P帧是20,B帧可以达到50。可⻅使⽤B帧能节省⼤量
空间,节省出来的空间可以⽤来保存多⼀些I帧,这样在相同码率下,可以提供更好的画质。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/560029.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

继电器工作原理、主要选型参数及应用电路详解

继电器具有输入回路和输出回路,通常应用于自动控制电路中。继电器实际上是用较小的电流去控制较大电流的一种“自动开关”。 工作原理 继电器的工作原理基于电磁效应。电磁式继电器一般由铁芯、线圈、衔铁、触点簧片等组成。当线圈两端加上一定的电压时,…

CSS基础:盒子模型详解

你好,我是云桃桃。 一个希望帮助更多朋友快速入门 WEB 前端的程序媛。 云桃桃,大专生,一枚程序媛,感谢关注。回复 “前端基础题”,可免费获得前端基础 100 题汇总,回复 “前端工具”,可获取 We…

基于Kubernetes集群构建MongoDB

基于Kubernetes集群构建MongoDB 作者:行癫(盗版必究) 一:基础环境 1.Kubernetes集群正常运行 2.Harbor私有仓库正常运行 二:MongoDB项目部署 ​ MongoDB项目对应Kubernetes的yaml文件: --- apiVersion: v1 kind: Namespace metadata:name: m

揭开ChatGPT面纱(一):准备工作(搭建开发环境运行OpenAI Demo)

文章目录 序言:探索人工智能的新篇章一、搭建开发环境二、编写并运行demo1.代码2.解析3.执行结果 本博客的gitlab仓库:地址,本博客对应01文件夹。 序言:探索人工智能的新篇章 随着人工智能技术的飞速发展,ChatGPT作为…

ruoyi element-ui 实现拖拉调整图片顺序

ruoyi element-ui 实现拖拉调整图片顺序 安装sortablejs https://sortablejs.com/npm 安装sortablejs npm install sortablejs --save相关options var sortable new Sortable(el, {group: "name", // or { name: "...", pull: [true, false, clone, …

【大模型系列】大模型评价指标总结

文章目录 1 图生文 (Image-to-Text)1.1 BLEU:基于准确率,得分越高越好1.2 METEOR:基于准确率和召回率,得分越高越好1.3 ROUGE:得分越高越好1.4 CIDEr:得分越高越好1.5 SPICE:得分越高越好1.6 Hu…

【云计算】云数据中心网络(五):对等连接

《云网络》系列,共包含以下文章: 云网络是未来的网络基础设施云网络产品体系概述云数据中心网络(一):VPC云数据中心网络(二):弹性公网 IP云数据中心网络(三)…

OpenHarmony网络通信-socket-io

简介 socket.io是一个在客户端和服务器之间实现低延迟、双向和基于事件的通信的库。建立在 WebSocket 协议之上,并提供额外的保证,例如回退到 HTTP 长轮询或自动重新连接。 效果展示 下载安装 ohpm install ohos/socketio OpenHarmony ohpm 环境配置等更…

原始部落版本潮玩宇宙小程序定制大逃杀游戏APP开发H5游戏

原始部落版本潮玩宇宙小程序定制大逃杀游戏APP开发H5游戏 潮玩宇宙小程序定制大逃杀游戏APP开发H5游戏 潮玩宇宙大逃杀小游戏模块成品源码,可嵌入任何平台系统,增加用户粘性,消除泡沫,短视频直播引流。 玩家选择一间房间躲避杀手…

Vue3+Spring Boot3实现跨域通信解决办法

Vue3Spring Boot3实现跨域通信解决办法 1 跨域是什么?2 何为同源呢?3 解决办法3.1 全局配置3.1.1 实现CorsFilter过滤器3.1.2 实现SpringMVC配置类3.1.3 创建CorsFilterFactory工厂类返回CorsFilter对象 3.2 局部跨域3.2.1 注解配置3.2.2 手动设置响应头(局部跨域)…

Python | Leetcode Python题解之第37题解数独

题目: 题解: class Solution:def solveSudoku(self, board: List[List[str]]) -> None:def dfs(pos: int):nonlocal validif pos len(spaces):valid Truereturni, j spaces[pos]for digit in range(9):if line[i][digit] column[j][digit] bloc…

类和对象【二】this指针,构造函数和成员初始化列表【超详细】

文章目录 this指针this指针的定义this指针的“工作”原理this指针的作用this指针的特点 构造函数构造函数的定义构造函数的作用构造函数的特点构造函数的调用方式括号法无参构造或者全缺省构造需要传参才能调用的构造函数 隐式类型转换法是只传一个参数就能调用的构造函数是要传…

发泡机液压站比例阀放大器

发泡机液压站是提供动力和压力以驱动发泡机工作的系统。 发泡机是一种用于制备聚氨酯发泡材料的设备,而液压站则扮演着为发泡机提供必要动力的角色。具体来看,液压站的主要组成包括: 液压油箱:存储液压油,为系统提供液…

11.接口自动化测试-Allure报告(2)

目录 1.如何同时执行多个测试文件2.Allure的不同层级应用Allure报告: 1.如何同时执行多个测试文件 (1)新建bat文件 (2)写命令 cd ./testCase pytest -s --alluredir ./report --clean-alluredir allure serve ./repo…

Unity之圆环slider

一、参考文章 Unity_圆环滑动条(圆形、弧形滑动条)_unity弧形滑动条-CSDN博客 此滑动条拖动超过360后继续往前滑动值会从0开始,正常我们超过360度时不可在滑动。 二、 超过360度不可滑动问题解决 参考HTML文章制作: https://www.c…

Java后端-文件上传大小限制解决

spring版本 2.5.4 报错如下:The field multipartFile exceeds its maximum permitted size of 1048576 bytes. 我上传的文件大小为2.5MB,如下图 原因:springboot默认的上传单个文件大小为1MB,而一次请求最大为10MB。 解决方案…

DFS专题:电话号码的字母组合

DFS专题:电话号码的字母组合 题目链接: 17.电话号码的字母组合 参考题解: 代码随想录 题目描述 代码思路 将数字到字母的映射用字符串数组表示出来。然后利用回溯算法,解决n个for循环的问题,枚举出每一种符合要求的情况。 代…

【Java探索之旅】用面向对象的思维构建程序世界

🎥 屿小夏 : 个人主页 🔥个人专栏 : Java编程秘籍 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一、初识面向对象1.1 什么是面向对象?1.2 面向对象与面向过程 二、类的定义…

中颖51芯片学习7. ADC模数转换

中颖51芯片学习7. ADC模数转换 一、ADC工作原理简介1. 概念2. ADC实现方式3. 基准电压 二、中颖芯片ADC功能介绍1. 中颖芯片ADC特性2. ADC触发源(1)**软件触发**(2)**TIMER4定时器触发**(3)**外部中断2触发…

LLM推理加速,如何解决资源限制与效率挑战

©作者|Zane 来源|神州问学 LLM加速推理,GPU资源破局之道。 引言 大型语言模型(LLM)已经在多种领域得到应用,其重要性不言而喻。然而,随着这些模型变得越来越普遍,对GPU资源的需求也随之激增&#xff…