视频编码标准的分层结构
视频数据分层的必要性:
网络类型的多样性、不同的应用场景对视频有不同的需求。
编码标准的分层结构:
为了适应不同网络和应用需求,视频编码数据根据其内容特性被分成若干NAL单元(NAL Unit,NALU),并对NALU的内容特性进行标识。网络只需要根据NALU及其标识就可以优化视频传输性能,不再需要亲自分析视频数据的内容特性。如下图就是典型的分层结构。
H266中NAL的作用机制:
原始图像经过编码(VCL)后,每幅图像变成难以理解的码流片段,每个码流片段内的数据不再具有类似像素表示的形式。NAL根据压缩视频码流的内容特性将其划分成多个数据段,对每个数据段进行分装并对内容特性进行标识,就生成了NALU,将内容特性信息存放在NALU头信息中。
网络适配层单元
NALU的组成:
NALU头 和NALU载荷(原始字节序列载荷,Raw Byte Sequence Payload,RBSP)
H266的NALU头:
长度为固定两字节,反应NALU的内容特征。语法结构如下表。
语法元素 | 编码方式 | 解释 |
---|---|---|
nal_umit_header(){ | – | – |
forbidden_zero_bit | f(1) | 值设置为0 |
nuh_reserved_zero_bit | u(1) | 值设置为0,1预留待未来使用 |
nuh_layer_id | u(6) | 表示NALU对应的层标识号,取值范围0~55,该值在一幅编码图像内的所有VCL NALU应该相同 |
nal_unit_type | u(5) | 表示NALU的类型,即NAL单元中包含的RBSP语法结构的类型,共5比特,分为VCL和non-VCL两类,取值0~31 |
nuh_temporal_id_plus1 | u(3) | NALU所在的时域层的标识号 |
} | – |
H266的NALU类型:
H266的NALU载荷:
RBSP的长度为整数字节,承载视频编码后的比特流片段。
在视频编码过程中输出包含不同内容的压缩数据比特流片段,这些比特流片段称为SODB(String of Data Bits
),SODB为最高有效位在左的存储形式,即字节内的比特按照从左到右、从高到低 的顺序排列,在SODB后添加RBSP尾(rbsp_trailing_bits
)就生成了RBSP,RBSP尾由称为RBSP停止比特的一比特1和其后的零比特或多比特0组成。
RBSP 即整数化的SODB。
RBSP冲突避免处理:
RBSP不能直接作为NALU的载荷,因为在字节流应用环境中0x000001为NALU的起始码,0x000000为结束码。因此,为了避免NALU载荷中的字节流片段与NALU的都起始码、结束码冲突,需要对RBSP字节流进行冲突避免处理。
视频比特流中的NALU
H266使用了图像单元(PU)和接入单元(AU)的概念,每个AU包含同一时刻的一个或多个PU,每个PU包含且仅包含一幅完整图像的编码数据,每个图像编码数据包含一个或多个Slice NALU,即VCL NALU。此外一个PU还可以包含non-VCL NALU,比如各种参数集、SEI等。
AU的顺序及其与CVS的关系:
一个比特流包含一个或多个编码视频序列(CVS),从时间维度看,一个CVS包含一个或多个AU,从层级维度看,一个CVS包含一个或多个编码层视频序列(CLVS)。
PU的顺序及其与AU的关系:
一个AU包含一个或多个按照nuh_layer_id
升序排列的PU。在一个AU中最多可以包含一个AU界定符(AU Delimiter, AUD)NALU。当AU中存在AUD NALU时,其应该为AU的第一个NALU,同时也是AU内第一个PU的第一个NALU。
编码图像和NALU的顺序及其与PU的关系:
一个PU由零个或一个PH NALU和一幅编码图像组成,编码图像包含一个或多个VCL NALU和零个或多个其他non-VCL NALU。
网络适配层单元的应用
NALU是压缩视频数据的基本单元,也是后续视频传输的基本单元。
字节流应用:
要求对NALU的边界进行标识以保证解码端可以对NALU进行识别。在每个NALU前面插入3字节的起始码start_code_prefix_one_3bytes
,其对应的值为0x000001。其语法结构如下。
分组流应用:
视频分组流是网络传输的一种有效方式,当视频NALU作为网络分组的载荷在网络中传输时,不同的网络分组因承载不同特性的NALU而具有不同的重要性,网络可以根据分组重要性优化视频流的服务质量。基于RTP/UDP/IP的实时业务采用典型的分组流传输方式。
RTP分组由RTP头和RTP载荷前后两部分组成,其RTP头的结构如下图。
RTP分组的类型有单NALU分组(一个分组只承载一个NALU)、聚合分组(一个分组承载多个NALU)、分片分组(一个分组只承载一个NALU的一部分)。
参考
JVET输出文档:
https://www.itu.int/wftp3/av-arch/jvet-site/
书籍:
新一代通用视频编码H266/VVC:原理、标准与实现[万帅 霍俊彦 马彦卓 杨付正/著]
备注
本系列博客主要是对《新一代通用视频编码H266/VVC:原理、标准与实现》
的学习笔记。