MPEG-1 详解

MPEG-1 详解

  • MPEG-1 详解
    • 特点
    • MPEG-1 中的运动补偿与 B 帧的引入
    • MPEG-1 vs H.261
    • MPEG-1 视频数据流的结构
    • MPEG-1 视频压缩模式
    • MPEG-1 视频解码框图
    • MPEG-1 音频编码模式
      • MPEG-1 audio layer 1
      • MPEG-1 audio layer 2
      • MPEG-1 audio layer 3
    • MPEG-1 音频编码框图
    • MPEG-1 音频解码框图
    • 参考

MPEG-1 详解

MPEG是活动图像组(Moving Picture Exports Group)的缩写。

MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1990年定义完成。1992年底,MPEG-1正式被批准成为国际标准。

MPEG-1是为CD光盘介质定制的视频和音频压缩格式,支持的视频格式有mpg、mlv、mpe以及mpeg等等。一张70分钟的CD光盘传输速率大约在1.4Mbps。

MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1随后被Video CD采用作为核心技术。

VCD采用的就是MPEG-1的标准,该标准是一个面向家庭电视质量级的视频、音频压缩标准。VCD的分辨率只有约352×240,并使用固定的比特率(1.15Mbps),因此在播放快速动作的视频时,由于数据量不足,令压缩时宏区块无法全面调整,结果使视频画面出现模糊的方块。因此MPEG-1的输出质量大约和传统录像机VCR相当,这也许是Video CD在发达国家未获成功的原因。

MPEG-1音频分三代,其中最著名的第三代协议被称为MPEG-1 Layer 3,简称MP3,目前已经成为广泛流传的音频压缩技术。MPEG-1音频技术在每一代之间,在保留相同的输出质量之外,压缩率都比上一代高。第一代协议MP1被应用在LD作为记录数字音频以及飞利浦公司的DGC上;而第二代协议MP2后来被应用于欧洲版的DVD音频层之一。

特点

随机访问,灵活的帧率、可变的图像尺寸、定义了I-帧、P-帧和B-帧 、运动补偿可跨越多个帧 、半像素精度的运动向量 、量化矩阵、GOF结构 、slice结构 、技术细节、输入视频格式。

MPEG-1 中的运动补偿与 B 帧的引入

与H.261、H.263相同,MPEG-1也采用混合编码,结合了运动补偿策略与变换编码策略进行预测残差估计。

在H.261中,每个P帧都通过运动补偿进行编码,P帧的每个宏块都会从参考的已编码I帧或P帧中找到一个参考宏块,并对宏块差值进行编码,这个过程被称为预测,宏块差值被称为预测残差,这个残差会经历DCT、量化和熵编码。H.261中的P帧只能参考它之前的帧,这被称为前向预测。在实际中,可能在P帧之前的帧中根本找不到一个可以很好的与目标宏块匹配的参考宏块,但可能在P帧之后的某个帧中也许会存在一个比较匹配的参考宏块,这种情况下就需要引入后向预测了,即用P帧之后的某帧来对当前帧进行预测,用未来的帧来预测当前帧,我们在下一段中将详细讲解这种机制在MPEG中的实现。

MPEG引入了除I帧、P帧之外的第三种帧——B帧,即双向预测帧,其中的字母B表示单词“bidirectional”。

在这里插入图片描述

B帧的工作方式如上图所示,目标帧过去的帧和未来的帧都会与目标帧的宏块进行运动向量搜索。如果在过去帧和未来帧中都找到了可接受的运动向量,则两个运动向量都会被记录,并在差分编码时,过去帧中的宏块和未来帧中的宏块会先进行一个平均(在上图中用一个百分号%表示),然后再与目标宏块取差,这时既有前向预测也有后向预测;如果只在一个方向的参考帧中找到了误差在可接受范围内的运动向量,则只会对一个方向的参考宏块进行编码,即只会发生前向预测或后向预测中的一种。

一个MPEG视频的帧序列模式通常是固定的,在MPEG的文件头中有写入规定的字段。MPEG中用 M 表示一个P帧和它之前的最近一个I帧或P帧的间隔距离,用 N 表示两个最近的I帧之间的间隔距离。例如当 M=3, N=9 时,帧模式就是:I B B P B B P B B I B B P B B P B B I … 而当 M=1 时,就表示没有用到任何B帧。

由于在MPEG中引入了B帧,而B帧的解码是依赖于它之后的帧的,这就导致MPEG视频帧的编码顺序与显示顺序不同。并且在解析B帧时,必须要等它后面的参考帧解析结束才能解析当前帧,这就可能带来延迟,尤其是在不太稳定的网络的流媒体传输中。

MPEG-1 vs H.261

除了B帧的引入,MPEG-1还在H.261的基础上做了以下升级:

  1. 支持更多种类的源视频格式。

  2. 引入了分片(slice)的概念。slice比GOB更加灵活,可以更好地控制视频的比特率。并且每一个slice都有一个唯一的slice_start_code,可以用于错误恢复。因为一个slice的解码不依赖于其他的变长编码,在流媒体传输中如果一个slice的某些比特发生了错误,并不会影响之后slice的解析,并且通过slice_start_code可以实现帧时间的定位。

  3. MPEG-1引入了量化表。在H.261中,DCT之后的量化操作是通过指定量化步长实现的,一个频域矩阵中所有的DCT交流系数都采用同一个步长进行量化,比较粗糙。MPEG-1中参考了JPEG的做法,引入了量化表对DCT之后的系数矩阵进行量化。并且量化表还可以进行放缩,用于控制压缩质量与最终的比特率。值得注意的是,对于帧内编码,量化表中的元素两两不同;而对于帧间编码,即预测残差矩阵的量化,其使用的量化表中只有一个数值,即对于每个位置的DCT系数都采用同一个量化步长。帧内编码和帧间编码所使用的量化表如下图所示:
    在这里插入图片描述

  4. 运动向量精度的提升。像H.263一样,MPEG也允许0.5像素的精度出现。

  5. 更大的运动向量搜索窗口。H.261的运动向量搜索范围为[-15, 15],而MPEG允许的运动向量搜索范围高达-512, 511.5或-1024, 1023。实际上,由于图像分辨率的限制,特别高的运动向量搜索范围一般在实际中不会使用。

  6. 允许比特流的随机访问。MPEG在封装格式中引入了GOP层,GOP是按视频的时间编码的,每个GOP都以一个I帧开头,因此一个GOP的解码不依赖于其他GOP。借助GOP,解码器可以从视频的比特流中任意选一个位置,找到那个位置对应的GOP,并从那个GOP开始解析,从而实现比特流的随机访问(这对应到我们日常看视频就是在拖拽进度条这样一个操作)。

MPEG-1 视频数据流的结构

在这里插入图片描述

如上图所示,MPEG-1的码流被分为6层,我们逐一来看每一层的内容。

  • Sequence layer:这一层以一个sequence header开头,结尾有一个sequence end code,中间是若干个GOP。在sequence header中包含了有关图像的一些信息,如水平尺寸(horizontal_size)、垂直尺寸(vertical_size)、像素高宽比(pixel_aspect_ratio)、帧率(frame_rate)、比特率(bit_rate)、缓冲区大小(buffer_size)、量化矩阵(quantization_matrix)等等。同时,在GOP与GOP之间可能也有optional sequence header,用于表示某些参数的变化。

  • Group of Pictures (GOPs) layer:一个GOP以一个GOP header开头,后面是若干个图像,其中必须要有一个图像是I帧。在GOP header中包含有时间信息,标志了这个GOP距离视频序列开始的时间(时、分、秒)。

  • Picture layer:这里的picture指的其实就是帧图像,就像有三种帧(I帧、P帧、B帧)一样,有三种picture:I-picture、P-picture、B-picture。一个Picture在picture header之后会包含若干个slice。

  • Slice layer:slice的主要作用是为了比特率控制以及错误恢复,每个slice的长度和位置都在slice header中记录。一个slice中在slice header之后就是若干个宏块macroblock。

  • Macroblock layer:一个宏块(16*16)包含了4个Y block(8*8)、1个Cb block(8*8)、1个Cr block(8*8)。

  • Block layer:每个block中是编码后的帧信息,在结尾有block end。如果对应的block是帧内编码,则block中包含通过DPCM编码的直流系数、以及通过VLC编码的交流系数;如果block是帧间编码,则直流系数和交流系数都是VLC编码。

视像数据结构:

在这里插入图片描述

MPEG-1 视频压缩模式

为了保证视频质量不变,而又能够获得比较大的压缩比。MPEG专家组把图像(picture)分为了三种类型:I帧、P帧、B帧,然后采用不同的算法分别对他们进行压缩。

我们展示一下对I帧进行压缩编码的算法图,这也是使用和JPEG类似的压缩算法,来减少空间冗余数据的。

在这里插入图片描述

可以看到图中是将I帧图像数据,以宏块为单位,取出8X8的图块,然后再进行处理的。在MPEG-1中,I帧、P帧、B帧的压缩比,通常为下表:

在这里插入图片描述

可以看到,压缩后的I帧的数据量最大,而B帧的数据量最小。并且平均压缩比为27:1,这也就是使用MPEG-1标准,能获得的压缩比。

MPEG1的视频压缩算法对运动不激烈的视频信号可获得较好的图像质量,但当运动激烈时,图像会产生马赛克现象。

MPEG-1 视频解码框图

在这里插入图片描述

MPEG-1 音频编码模式

MPEG-1Audio具体规定了用于数字存储媒介的高质量音频的编码与解码表示,适用于32kHz、44.1kHz和48kHz取样率。编码系统可以工作在单声道、双声道、立体声和联合立体声四个方式,每通道的数据率为128kb/s。

该标准定义了三个层次(Layer)的编码算法,允许用户根据不同的应用需要采用不同层次的编码系统。

  • 层1(Layer 1):编码简单,用于数字盒式录音磁带。

  • 层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等。

  • 层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐,可以压缩10倍。

从层次1到层次3,层次越高压缩性能越好,音质性能逐渐增加,最终能提供极高品质的音频,同时编码/解码器也越复杂。用户可在复杂性和压缩质量之间权衡选择。第1、2层编码方式(简称为MP1、MP2)为子带取样,第3层编码方式(简称为MP3)为变换后的子带取样。

不同层次的主要性能指标下表所示。

在这里插入图片描述

MPEG-1 audio layer 1

所需频宽:384kbps。

压缩率4:1。

特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)。

缺点:频宽要求较高。

MPEG-1 audio layer 2

所需频宽:256~192kbps。

压缩率:8:1~6:1。

特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM(MP2)由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。

MPEG-1 audio layer 3

所需频宽:128~112kbps。

压缩率12:1~10:1。

特性:MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。

优点:压缩比高,适合用于互联网上的传播。

缺点:MP3在128K Bit rate及以下时,会出现明显的高频丢失。

MPEG-1 音频编码框图

下图给出了编码器的基本框图,编码器由四个功能单元组成:时-频映射网络,心理声学模块,量化器和编码器,以及帧-封装单元。

在这里插入图片描述

时-频映射网络的功能是将输人音频信号分解成编码使用的若干子带。映射分为三层,分别标为Ⅰ、Ⅱ和Ⅲ,它们的复杂度、时延和主观感觉性能依次递增。l层的算法利用一个带通滤波器集将音频信号分为32个带宽恒定的子带,I层和Ⅲ层中也采用这样的滤波器集。根据前面对不等间隔排列的临界频带的讨论,这种滤波器集的设计应兼顾计算效率和感觉性能。层的算法只在Ⅰ层算法上进行了简单改进,将数据编码为更大的群,从而提高了压缩性能。Ⅲ层的算法则更为周详,因为其设计目标是得到更接近于临界频带划分的频率分解。

心理声学模块是编码器的核心部分。其功能是对输人音频信号的频谐内容进行分析,然后计算出这三层中每层每个子带的信号-屏蔽比。

量化器-编码器根据心理声学模块输出的信息决定如何将可用比特分配给子带信号以进行量化。动态分配比特的目的是使量化噪声的可听性降至最小。

帧-封装单元将量化后的音频样值集合为编码比特流。

在这里插入图片描述

根据上述分析,编码器可进一步细化为上图所示结构,它由红蓝两条线构成。

红线是输入的PCM码流经过多相滤波器组分成32个子带信号,经过块形成后,对每个子带数据进行线性量化,对部分量化级别采用颗粒优化以增大压缩比,最后装帧输出。

蓝线是对输入的PCM码流进行FFT变换,经过心理声学模型去除信号中被掩蔽的部分,提取出比例因子后进行动态比特分配:对人耳听觉敏感的低频成分分配较多比特,对高频噪声分配较少的比特,以增大压缩比。比例因子经过选择后,数据编码装帧输出。

MPEG-1 音频解码框图

下图所示为译码器结构,译码器由三个功能单元组成:帧-解封单元,频率样值重构网络以及频-时映射网络,通过对比可以发现,只有编码器必须采用心理声学模块。

在这里插入图片描述

因为译码器完成的是编码器所进行的信号处理操作的逆过程,即将收到的编码比特流转换为时域音频信号,原理类似,此处不再赘述。

参考

  1. https://news.eda365.com/tech/jsbaike/120011713611313.html
  2. https://zhuanlan.zhihu.com/p/68222970
  3. https://upimg.baike.so.com/doc/7125021-7348317.html
  4. https://baike.baidu.com/item/MPEG-1/214216
  5. https://zhuanlan.zhihu.com/p/577377155
  6. https://blog.csdn.net/houxiaoni01/article/details/99830240
  7. https://blog.csdn.net/cc289123557/article/details/133966121
  8. https://blog.csdn.net/m0_70886513/article/details/135294745
  9. https://blog.csdn.net/qq_52127343/article/details/128223620

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/518029.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于matlab解决鸡兔同笼问题

一、什么是鸡兔同笼? 鸡兔同笼问题是一种经典的数学问题,最早出自于《孙子算经》,详细成书时间不详,但可以确定的是,它不早于汉代,不晚于南北朝时期[6]。这个问题在中国数学史上具有重要的意义&#xff0c…

WEB漏洞挖掘详细教程--用户输入合规性(sql注入测试)

前置教程:WEB漏洞挖掘(SRC)详细教程--信息收集篇-CSDN博客 WEB漏洞挖掘(SRC)详细教程--身份认证与业务一致性-CSDN博客 WEB漏洞挖掘(SRC)详细教程--业务数据篡改-CSDN博客 2.4 用户输入合规性…

RabbitMQ基于Java实现消息应答

RabbitMQ 概念 RabbitMQ是一个消息中间件:它接受并转发消息。你可以把它当做一个快递站点,当你要发送一个包裹时,你把你的包裹放到快递站,快递员最终会把你的快递送到收件人那里,按照这种逻辑RabbitMQ是一个快递站, 一个快递员帮你传递快件…

Golang Gin框架

1、这篇文章我们简要讨论一些Gin框架 主要是给大家一个基本概念 1、Gin主要是分为路由和中间件部分。 Gin底层使用的是net/http的逻辑,net/http主要是说,当来一个网络请求时,go func开启另一个协程去处理后续(类似epoll)。 然后主协程持续…

备战蓝桥杯---递归与DFS刷题2

1. 数据范围允许直接暴力把所有组合都写一遍,我们用Pair来存,在sort中分式比较只要把自己的分子与对方的分母乘比较即可,下面介绍一下st树的写法,具体原理就不说了,它是先[0/1,1/1]然后取分子分母的平均化成两个区间&a…

【C++】学习多态原理

目录 一、虚函数表二、多态原理三、关于动态绑定与静态绑定 一、虚函数表 先来看一段代码&#xff1a;sizeof(Base)是多少&#xff1f; class Base { public:virtual void Func1(){cout << "Func1()" << endl;} private:int _b 1; };int main() {cout…

【Linux】make 工具和 Makefile 文件的引入

前面提到了 gcc 编译器&#xff0c;那么使用 gcc 编译器肯定就会接触到 Makefile 。当源码文件比较多的时候就不适合通过直接输入 gcc 命令来编译&#xff0c;这时候就需要一个自动化的编译工具 make 。 举例&#xff1a;通过键盘输入两个整形数字&#xff0c;然后计算他们的和…

elasticSearch原理浅尝

终于等到你 马上就要放弃 开个玩笑 &#xff0c;进入正题 on fire 基础的咱不说了&#xff0c;一搜一麻袋 读 全文检索&#xff1a; 协调节点广播查询请求到相关分片 并 将其响应 整合 全局排序 返回结果集合 带路由&#xff1a;具体文档 shard hash(document_id) % (…

国外服务器托管需要了解哪些信息

国外服务器托管服务提供了一种在国外租用并管理服务器的方式&#xff0c;适用于需要特定地域服务或对本地法规有特殊要求的企业和个人。那么想要进行国外服务器托管需要了解哪些信息呢?Rak部落小编为您整理发布国外服务器托管相关内容。 以下是一些关于国外服务器托管服务的详…

YoloV8改进策略:BackBone改进|ELA

文章目录 摘要1、引言2、相关工作3、方法3.1、重新审视坐标注意力3.1.1、坐标注意力3.1.2、坐标注意力的不足 3.2、高效局部注意力3.3、多个ELA版本设置3.4、可视化3.5、实现 4、实验4.1、实验细节4.2、ImageNet上的图像分类4.3、目标检测4.4、语义分割 5、结论 摘要 https://…

如何搭建自己的百度网盘目录树搜索系统

许多做虚拟资源的小伙伴都有好几个百度网盘账号&#xff0c;大部分也都是扩容盘&#xff0c;但是扩容盘不能搜索&#xff0c;这个就很难受&#xff0c;不能让用户搜索自己的资源&#xff0c;这无意是是对成交概率是致命的&#xff0c;几百万条的数据&#xff0c;不能让用户一个…

【Java】jdk1.8 Java代理模式,Jdk动态代理讲解(非常详细,附带class文件)

&#x1f4dd;个人主页&#xff1a;哈__ 期待您的关注 一、什么是代理模式 想要学代理模式&#xff0c;我们就要先弄清一个概念“什么是代理”&#xff1f; 在我们的现实生活中&#xff0c;你或许不少听过关于代理的名词&#xff0c;如&#xff1a;代理商。那什么又叫做代理…

Linux课程____LVM(逻辑卷管理器)

LVM 技术是在硬盘分区和文件系统之间添加了一个逻辑层&#xff0c;它提供了一个抽象的卷组&#xff0c;可以把多块硬盘进行卷组合并。 这样一来&#xff0c;用户不必关心物理硬盘设备的底层架构和布局&#xff0c;就可以实现对硬盘分区的动态调整。 动态调整磁盘容量&#xff…

设计模式——工厂模式01

工厂模式 定义&#xff1a;工厂模式是创建子类实例化对象的一种方式&#xff0c;屏蔽了创造工厂的内部细节。把创建对象与使用对象进行拆分&#xff0c;满足单一职责。如果需要向工厂中添加新商品&#xff0c; 只需要扩展子类再重写其工厂方法&#xff0c;满足开闭原则。 设计…

数据分析(三)线性回归模型实现

1. 惩罚线性回归模型概述 线性回归在实际应用时需要对普通最小二乘法进行一些修改。普通最小二乘法只在训练数据上最小化错误&#xff0c;难以顾及所有数据。 惩罚线性回归方法是一族用于克服最小二乘法&#xff08; OLS&#xff09;过拟合问题的方法。岭回归是惩罚线性回归的…

新型智慧城市大数据解决方案(附下载)

随着云计算、大数据、移动互联网等技术的发展&#xff0c;由城市运行产生的交通、环境、市政、商业等各领域数据量巨大&#xff0c;这些数据经过合理的分析挖掘可产生大量传统数据不能反映的城市运行信息&#xff0c;已成为智慧城市的重要资产。 在大数据时代&#xff0c;数据信…

Unity入门

Unity入门学习 知识概述&#xff1a; Unity环境搭建 1.Unity引擎是什么 2.软件下载安装 下载最新的长期支持版即可 3.新工程和工程文件夹 Unity界面基础 1.Scene场景和Hierachy层级窗口 练习&#xff1a; 2.Game游戏和Project工程 3.Inspector检查和Console控制台 练习&#…

【快速上手ESP32(基于ESP-IDFVSCode)】03-定时器

ESP32中的通用定时器 通用定时器是 ESP32 定时器组外设的驱动程序。ESP32 硬件定时器分辨率高&#xff0c;具有灵活的报警功能。定时器内部计数器达到特定目标数值的行为被称为定时器报警。定时器报警时将调用用户注册的不同定时器回调函数。 在ESP32-S3中&#xff0c;一共有…

HTML:框架

案例&#xff1a; <frameset cols"5%,*" ><frame src"left_frame.html"><frame src"right_frame.html"> </frameset> 一、<frameset>标签 <frameset>标签&#xff1a;称为框架标记&#xff0c;将一个HTML…

全网最强JavaWeb笔记 | 万字长文爆肝JavaWeb开发——day06_数据库-MySQL-02

万字长文爆肝黑马程序员2023最新版JavaWeb教程。这套教程打破常规&#xff0c;不再局限于过时的老套JavaWeb技术&#xff0c;而是与时俱进&#xff0c;运用的都是企业中流行的前沿技术。笔者认真跟着这个教程&#xff0c;再一次认真学习一遍JavaWeb教程&#xff0c;温故而知新&…