音频和视频基础知识

声音

什么是声音:
声音是由物体振动产生的,物体发生振动,对周围的空气产生挤压,从而产生声音。声音是一种压力波,使周围的空气产生疏密变化,形成疏密相间的纵波,由此产生了声波

声波三要素:

要素解释
频率代表音阶的高低,频率越高,波长就越短。人类的耳朵听力的频率范围为20Hz~20kHz。
振幅代表响度;即能量大小的都反映,实际生活中,分贝常用于描述响度的大小。
波形代表音色,波的形状决定了其所代表声音的音色,比如钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

声音的传播介质:
声音的传播介质很广,比如空气、液体和固定等;介质不同,传播的速度也不同,但在真空中无法传播。空气中传播速度340m/s,蒸馏水中传播速度1497m/s,钢铁中传播速度为5200m/s

回声(echo):
声音在传播过程中遇到障碍物反弹回来,再次传到耳朵中,就形成了回声。但是若这两种声音传到我们的耳朵里的时差小于80ms,我们无法区分这两种声音。

共鸣:
敲击一个物体时另一个物体也会振动发声,这种现象称为共鸣。共鸣证明了声音传播可以带动另外一个物体振动,也就是声音的传播也是一种能量的传播过程。

数字音频

模拟信号转换成数字信号,需要经过采样、量化。
采样:在时间轴上对信号进行数字化。所谓的44.1kHz就是代表1秒回采样44100次。
在这里插入图片描述
量化:在幅度轴上对信号进行数字化。比如用16比特的二进制信号来标识声音的一个采样,而16比特共有65536个可能取值,因此最终模拟信号在幅度上也分为65536层。
在这里插入图片描述
PCM:通常所得音频裸数据格式就是脉冲编码调制(Pulse Code Modulation,PCM)数据。
比特率(码率): 描述一段音频一秒内的大小,称为数据比特率。

音频编码

音频编码:就是对音频进行压缩,压缩编码的基本指标之一就是压缩比。压缩编码包括有损压缩和无损压缩。压缩编码的原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号,包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。
常用的音频编码格式:

编码格式解释
WAV不进行压缩操作,只是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息
MP3有着不错的压缩比,全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。
AACAAC(Advanced Audio Coding)是一种音频压缩格式,旨在提供比MP3更好的音质和更高的压缩比。它是MPEG-4标准的一部分,并且被广泛用于数字音频广播、流媒体和存储媒体中。AAC采用了先进的编码技术,如预测编码、离散余弦变换(DCT)和量化,以及更复杂的心理声学模型,以提供更好的音频质量。与MP3相比,AAC通常能够提供更高的音频质量,尤其是在低比特率下。
OGGOgg是一种免费的、开源的、无损的音频压缩格式,其全称是Ogg Vorbis。与MP3和AAC不同,Ogg旨在提供无损的音频质量,而不是有损的压缩。

视频

三原色:红绿蓝三种色光无法被分解,故称为三原色光,等量的三原色光相加会变成白色。
像素:像素(Pixel)是数字图像的基本单位,由英文单词“Picture”和“Element”组合而成。每个像素代表图像中的一个最小采样点,具有特定的位置和灰度值或颜色值。在数字图像中,像素通常按照矩阵形式排列,形成一张完整的图像。
数字图像:数字图像是以数字形式表示的图像,通常由像素组成。每个像素具有特定的位置和灰度值或颜色值,可以表示图像中的不同信息。数字图像通常存储在计算机中,可以进行各种计算和处理。数字图像处理是一种将图像信号数字化后利用计算进行处理的过程。数字图像可以转换为数字信号,并通过各种算法和计算进行处理。常见的数字图像处理操作包括图像增强、滤波、变换、分析、识别和分类等。

图像的数值表示:通常有RGB方式和YUV方式。
YUV和RGB转换:所有渲染到屏幕上的都需要转换为RGB的表示形式。

在这里插入图片描述
分辨率:图像分辨率是指单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义。图像分辨率则是单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义。此外还有屏幕分辨率。

帧率(fps):是指每秒显示的帧数,是评估视频流畅度的指标。一般来说,30fps就是可以接受的,60fps则可以明显提升交互感和逼真感,超过75fps后,人的肉眼就不会再有明显提升的感受。

视频编码

视频编码:为了去除视频的冗余信息,实现视频的压缩,需要对视频进行编码,相比较音频数据,视频数据具有极强的相关性,拥有大量的冗余,包括空间冗余、时间冗余和统计冗余等等。
常见的编码方式: H261、H262、H264、H265、H266、VP8、VP9、AV1、AVS、AVS3等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320268.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTML如何设置背景图片?有几种设置背景图片的办法?

我们在编辑网页时&#xff0c;如果觉得网页过于单调&#xff0c;这时便可以加上一张自己喜欢的背景图。这篇文章中&#xff0c;W3Cschool 小编给大家介绍下 HTML 中如何设置背景图片&#xff0c;分别有哪几种设置背景图片的方法。 方法一、HTML中设置背景图片 HTML中的<bo…

5.Pytorch模型单机多GPU训练原理与实现

文章目录 Pytorch的单机多GPU训练1)多GPU训练介绍2)pytorch中使用单机多GPU训练DistributedDataParallel(DDP)相关变量及含义a)初始化b)数据准备c)模型准备d)清理e)运行 3)使用DistributedDataParallel训练模型的一个简单实例 欢迎访问个人网络日志&#x1f339;&#x1f339;知…

HTML登录页面透明样式

html <body> <form> <h4 style"text-align:center">登录中心</h4> <hr /> <br /> <div class"row mb-5"> <label class"col-sm-2 col-form-label"…

【GitHub项目推荐--国外大神复刻暗黑2】【转载】

《暗黑破坏神2》&#xff0c;由顶尖游戏公司暴雪研发&#xff0c;2000 年上市&#xff0c;其资料片 2001 年上市&#xff0c;2D 画面。相信这款游戏已经成为很多人的回忆了&#xff0c;不知道当时是不是也和我一样沉迷于收集套装呢&#xff1f; 这款游戏的剧情设计、画面感都令…

Deepin使用记录-deepin安装docker

引用 本来想在deepin中直接安装mysql的开发环境的&#xff0c;但想到还是安装docker&#xff0c;然后在docker下安装比较方便&#xff0c;所以就有了本篇文章&#xff0c;先在deepin下安装docker。 经过本次安装&#xff0c;发现在deepin下安装docker是非常的简单&#xff0c…

企业异地访问办公系统:对比运营商MPLS专线,内网穿透有何优势?

为了实现连锁门店、企业内部各地分支机构ERP、OA、远程监控、自建邮件服务器、智能网络设备等数据传输、互访&#xff0c;使用运营商专线或是采用内网穿透方案&#xff0c;彼此之间究竟有何区别呢&#xff1f; 简单来说&#xff0c;MPLS专线和普通宽带类似是运营商提供的网络租…

数学建模day15-时间序列分析

时间序列也称动态序列&#xff0c;是指将某种现象的指标数值按照时间顺序排列而成的数值序列。时间序列分析大致可分成三大部分&#xff0c;分别是描述过去、分析规律和预测未来&#xff0c;本讲将主要介绍时间序列分析中常用的三种模型&#xff1a;季节分解、指数平滑方法和AR…

20240112-剑来的小文字大道理

– 烽火戏诸侯 《剑来》 与亲近之人不要说气话&#xff0c;不要说反话&#xff0c;不要不说话。 请不要把陌生人的些许善意&#xff0c;视为珍惜的瑰宝&#xff0c;却把身边亲近人的全部付出&#xff0c;当做天经地义的事情&#xff0c;对其视而不见。 读过多少书&#xff0…

java基础知识点系列——分支语句(六)

java基础知识点系列——分支语句&#xff08;六&#xff09; 流程控制 流程控制语句分类 顺序结构分支结构循环结构 顺序结构 顺序结构是程序中最简单最基本的流程控制&#xff0c;没有特定的语法结构&#xff0c;按照代码的先后顺序&#xff0c;依次执行。 if语句 if语…

利益兑现期越短,积极性越高

在2023年一次部门项目提成时间节点的调整&#xff0c;引发了相关的销售部门 &#xff0c;项目集成部门&#xff0c;软件开发部门截然不同的工作积极性。 公司案例 公司做项目的时候&#xff0c;采用的是相关部门都可以在项目获取提成 &#xff0c;之前的提成方式为销售部门为…

openfeign服务启动成功但是注册不上nacos? 我看看怎么个事儿!

spring-cloud-starter-alibaba-nacos-discovery和spring-boot-starter-web不得不说的秘密 ! 直接上答案: 给你的服务加上springbootweb依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifa…

lv14 多路复用及信号驱动 8

1 多路复用 描述符&#xff1a; 文件描述符&#xff1a;设备文件、管道文件 socket描述符 1.1 应用层&#xff1a;三套接口select、poll、epoll select&#xff1a;位运算实现 监控的描述符数量有限&#xff08;32位机1024,64位机2048,监控对象有限&#xff09; 效率差 p…

【MATLAB】VMD_LSTM神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 变分模态分解&#xff08;Variational Mode Decomposition&#xff0c;VMD&#xff09;和LSTM&#xff08;Long Short-Term Memory&#xff09;神经网络结合的算法是一种用于处理时间序列…

国家注册信息安全专业人员十五类CISP证书

国家注册信息安全专业人员&#xff08;Certified Information Security Professiona&#xff0c;简称CISP&#xff09;&#xff0c;是面向党政机关、关键信息基础设施运营单位、各类企事业单位和社会组织以及网络与信息安全企业、测评和咨询服务机构等工作的信息安全人员颁发的…

ELK之Filebeat安装配置及日志抓取

一、Filebeat是什么 轻量型日志采集器 无论您是从安全设备、云、容器、主机还是 OT 进行数据收集,Filebeat 都将为您提供一种轻量型方法,用于转发和汇总日志与文件,让简单的事情不再繁杂。 Filebeat 随附可观测性和安全数据源模块,这些模块简化了常见格式的日志的收集、解…

MyBatis的配置及简单使用

1.配置myBatis 1.myBatis的作用 MyBatis 是一个开源的持久层框架&#xff0c;它的主要作用是简化数据库操作&#xff0c;使得开发者能够更方便地与数据库进行交互。 MyBatis 允许开发者使用简单的 XML 或注解配置 SQL 映射&#xff0c;从而实现数据库操作&#xff0c;而不需要…

MATLAB Deep learning

文章目录 Chapter 1: Machine Learning存在的问题过拟合Overfitting解决过拟合 regularization and validationregularization 正则化validation 验证 机器学习的类型有监督学习分类Classification回归Regression 无监督学习聚类 强化学习 Chapter 2: Neural NetworkChapter 3:…

Danswer部署指南

Quickstart How to deploy Danswer on your local machine ​ Requirements gitdocker with compose (docker version > 1.13.0) ​ Setup This quickstart guide covers setting up Danswer for local execution Clone the Danswer repo: git clone https://github.com…

高效学习新编程语言的实践指南

学习一门新的编程语言或框架对于新手和有经验的程序员来说都是一个挑战。然而&#xff0c;通过采用一些有效的策略和方法&#xff0c;我们可以快速入门并掌握新的编程工具。本文将从新手和有编程经验两个不同的角度&#xff0c;分享一些实用的建议和技巧&#xff0c;帮助读者在…

【GitHub项目推荐--开源的坦克大战】【转载】

坦克大战当年红遍大江南北&#xff0c;很多和我一样的九零后应该都有着对这个游戏的记忆。现在显示器分辨率越来越高&#xff0c;使用矢量图来实现像素风格游戏&#xff0c;可以获得非常高的展现质量。 这个项目是作者肥超花了很长时间折腾的复刻版本&#xff0c;所有元素都使…