帧就是动画中的一张图片,这相当于电影胶片上的一个镜头,一帧就是一幅静止的画面,连续的帧就形成了我们看到的动画和视频。
但是直接采集后没经过处理的视频,其实是没有办法真正在互联网上进行传输的。以一张1920乘1080的图片为例,要传输这张图片就需要1920x1080x3x3,也就是47mb。其中8比特等于1字节,三代表的是RGB。
如果现在要传输一个每秒30帧的视频,每一帧都是这样的图片。那么一秒就需要传输30x47mb,等于1.4Gb的数据。你所需要的带宽就是1.4GBPS。但是家用千兆带宽,所以要在日常传输这么大的视频几乎不太现实。视频必须经过压缩后才能进行正常传输,而这个压缩的过程就是视频编码。
不过由于输入到视频编码器的视频数据必须是YUV格式的,因为只有使用YUV格式才能极大的去除冗余信息,最大限度的节省网络带宽。所以如果目前的数据是RGB格式的,只需要通过算法将RGB转换为YUV格式,准备好YUV视频数据后,就该进入编码阶段。
现如今视频编码有很多标准,比如H.264,AV1还有VPS。之所以有这么多标准,一方面是有人研究出了更高效的编码算法,另一方面也是由于新的视频互动场景不断涌现,需要更好的编解码标准来支持,而目前最主流的编解码器还是H264。
H264视频编码分为五个模块,帧类型分析、帧内/帧间预测、变换+量化、滤波,还有上电码。
它们都是什么作用呢?首先YUV格式的视频数据会先经过帧类型分析模块确定当前这一帧是属于什么类型。视频帧会分为I、P、B3种帧。
你可以把 “I帧” 理解为电影中的一段连续影像,里面包含了所有的图像信息。只要影像里的画面没有出现太多变化,基本不会出现新的“I帧”。如果在视频中画面只是出现了一些比较小的变化,那么这些变化的信息都会放在P/B帧中。针对性分析模块就是根据码流占用来判断真类型。
接着这些帧会再经过帧类与帧间预测以及变换量化进一步得到压缩。由于这几步的处理可能会出现块效应,比如马赛克就是块效应的一种表现,块效应会影响我们的观看感受。
为了避免这种情况,优化视频权让这些数据还会通过滤波模块。经过了压缩优化的处理,这些数据已经可以被传输出去了。这时上电码模块启动了,它会把当前的像素值转换压缩为二进制码流。最终解码器会输出这些适合传输的二进制码流进入网络传输。将这些数据传输到你的手机上时,解码器会通过熵解码、反量化、反变换等一系列操作把图像呈现出来,这时候你就看到了对方的视频画面。