音视频多媒体编解码器基础-codec

如果要从事编解码多媒体的工作，需要准备哪些更为基础的内容，这里帮你总结完。

因为数据类型不同所以编解码算法不同，分为图像、视频和音频三大类；因为流程不同，可以分为编码和解码两部分；因为编码器实现不同，分为硬编码和软编码；因为编解码硬件位置不同，可以分为片内、片外和独立编解码模块三类；软件常用的框架ffmpeg。

音视频编解码（Audio-Video Coding）是指将音频和视频信号进行压缩编码以及解码还原的过程。

算法通过去除图像中的冗余信息，实现图像的压缩存储和传输。在解码过程中，这些算法将压缩的图像数据恢复为原始的图像信号。

编解码的应用流程：先对原始图像进行压缩编码，然后进行存储和传输，最后在使用或者后处理时再进行解码。

音视频编解码的基本原理是利用人的感知系统特性的特点，对音视频信号进行数据压缩，从而便于传输和存储。

编码过程中是将信号转换为数字形式，并应用压缩算法来减少数据量。

解码是编码的逆过程，是将压缩后的数据重新恢复为原始的音视频信号。

编码的一般流程为：采样、量化、压缩、打包。

解码的一般流程为：解包、解码、反量化和数模转换，最终恢复为模拟音视频信号。

编码器压缩两要素：图像相关性、人眼敏感性。

软编码和硬编码

硬编码是指利用显卡GPU、专用的DSP、FPGA、ASIC芯片等硬件进行编码，性能高；软编码是使用CPU进行编码，软件实现直接、简单，参数调整方便，升级易，但性能较硬编码低。

H264软件编码器有JM官方编码实现X264，提供了丰富的视频编码函数库。

H264硬件编码器IP比如LC1860就有芯原Hautro H1，可以直接通过控制硬件实现硬编码。

H264图像序列实现帧间预测

每个序列以一个关键帧（I帧）开始，随后跟着若干个参考前面的帧生成的差别帧（P帧），以及参考前后的帧生成的差别帧（B帧），这种减少I帧数量的方式进一步提高了压缩效率。

以下是音视频编解码的具体过程：

	目的	音频	视频
采样	将模拟信号通过采样转换成数字信号	连续的模拟音频信号转换为离散的数字信号	连续的模拟视频信号转换为离散的数字信号
量化	减小数据量	将采样后的音频信号量化	对采样后的视频信号量化，再进行预处理，包括去噪、滤波、颜色空间转换等
压缩	将信号表示为更紧凑的形式	对量化后的音频信号进行编码	对预处理后的视频进行压缩编码，包括运动估计、变换编码等
打包	便于传输和存储	将编码后的音频数据组织为数据包	将编码后的视频数据组织为数据包

图像编解码算法主要包括无损编码、有损编码两个类，顾名思义，无需解释。

无损压缩原理：通过预测编码、霍夫曼编码等技术，减少数据的冗余度同时保持图像信息的完整性。

有损编码原理：通过离散余弦变换（DCT）编码、小波变换编码等技术，利用人眼对图像的感知特性，去除对图像影响较小的信息。

常见的图像压缩算法

图像压缩算法	原理	应用
JPEG	将图像分割成8x8像素方块，DCT变换到频域，再量化以减少数据量	网页图片、数码相机
HEIF	HEVC（H.265）视频编码技术实现高效压缩	智能手机摄像头拍摄的照片
PNG	采用LZ77压缩算法和哈夫曼编码等技术实现无损压缩	图标、徽标

使用时需要对压缩后的图像数据进行解码处理以还原为原始图像，恢复出压缩前的图像数据进行后处理和显示等。

解码过程包括熵解码、逆量化和逆DCT变换等过程。

视频编码通过将视频信号分解成一系列的图像帧，并对这些图像帧进行压缩处理，以减少数据量并提高传输效率。常见的视频编码标准有H.264/AVC、HEVC/H.265、prores(apple)、VP9等。

视频编码方式主要包括帧内压缩（prores）、帧间压缩（H264. H265）。

常见的视频压缩方法

常见的音频编码标准有MP3、AAC等。这些标准采用了一系列复杂的算法和技术来实现高效的音频压缩。在编码过程中，音频信号被转换为数字形式，并应用特定的压缩算法来减少数据量。解码过程则是将压缩后的音频数据恢复为原始的音频信号。

音频编码的过程也是包括：模拟信号采样，采样后的信号量化，之后进行编码得到数字音频信号。

音频解码的过程包括：加盟其首先对音频进行解包提取音频数据，然后将使用编码时对应的解码算法进行解码获得原始信号，然后通过反量化操作恢复为连续的近似值，最后通过重构把之前的信号换换成模拟音频信号。

音频输入输出的实际流程：

播放应用从存储中读取音频封装格式的文件（比如mp3）,播放器调用解码模型进行解码成PCM数据，最终送到音频驱动去播放。

而在录音时，音频驱动接收采样获得的PCM数据，给到应用程序，应用调用编码模型进行编码，再调用存储模型进行存储。

常见的音频压缩方法

音频压缩方式	原理	应用
PCM脉冲编码调制	将模拟音频信号转换为数字信号的技术，是一种未压缩的音频原始数据流。	可以理解为音频中类似“视频中的YUV"，实际播放的音频原始数据。
MP3	利用心理声学模型去除人耳察觉不到的音频成分，编码过程在量化后增加声学分析以及霍尔曼编码等步骤。	广泛应用音频文件如音乐歌曲等。
AAC(Advanced Audio Codin)	使用预测编码和变换变化技术，实现了更高效的音频编码。	广泛应用于广播和流媒体等。

音频编解码还需要考虑音频的质量、采样率、比特率和声道数等因素。这些因素直接影响音频的听觉效果和传输效率。