音视频同步的关键:深入解析PTS和DTS

在这里插入图片描述

😎 作者介绍:我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun,视频号:AI-行者Sun
🎈 本文专栏:本文收录于《音视频》系列专栏,相信一份耕耘一份收获,我会分享音视频相关学习内容,不说废话,祝大家都offer拿到手软
🤓 欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。
🖥随时欢迎您跟我沟通,一起交流,一起成长、进步!

音视频同步的关键:深入解析PTS和DTS

在多媒体播放和处理领域,音视频同步是保证用户体验的关键因素。而在这个过程中,PTS(Presentation Time Stamp)和DTS(Decoding Time Stamp)起着至关重要的作用。本文将深入解析这两个概念,并探讨它们在音视频同步中的作用和联系。

视频的播放过程可以简单理解为一帧一帧的画面按照时间顺序呈现出来的过程,就像在一个本子的每一页画上画,然后快速翻动的感觉。
在这里插入图片描述
但是在实际应用中,并不是每一帧都是完整的画面,因为如果每一帧画面都是完整的图片,那么一个视频的体积就会很大,这样对于网络传输或者视频数据存储来说成本太高,所以通常会对视频流中的一部分画面进行压缩(编码)处理。由于压缩处理的方式不同,视频中的画面帧就分为了不同的类别,其中包括:I 帧、P 帧、B 帧。

具体IPB帧的介绍看这里:深入解析视频编码中的IPB帧

什么是PTS和DTS?

在这里插入图片描述
在这里插入图片描述

PTS(显示时间戳)

PTS是音视频帧应该被显示或播放的时间戳。它确保了在播放过程中,无论是视频帧还是音频帧,都能在正确的时间点呈现给用户,保持音视频的同步性。例如,在视频播放中,PTS会指示每个帧在何时显示,以维持连贯的视觉体验。

DTS(解码时间戳)

DTS是音视频帧应该被解码的时间戳。由于一些编码格式可能会对帧进行重新排序,解码顺序可能与显示顺序不一致。DTS确保解码器能够按照正确的顺序解码帧,特别是在处理需要重新排序的编码格式时,DTS显得尤为重要。

DTS和PTS的区别

概念上的区别

  • DTS:标识帧被解码的时间。
  • PTS:标识帧被显示或播放的时间。

功能上的区别

  • DTS:主要用于解码过程,确保帧按照正确的顺序进行解码。
  • PTS:主要用于播放过程,确保帧在正确的时间点被显示或播放。

应用场景的区别

  • DTS:更多应用于解码器内部,用于管理帧的解码顺序。
  • PTS:更多应用于播放器,用于管理帧的显示和音频的播放时间。

DTS和PTS的联系

尽管DTS和PTS在功能和应用场景上有所区别,但它们共同服务于音视频同步这一目标。解码器使用DTS来决定帧的解码顺序,而播放器使用PTS来决定帧的显示顺序。这种同步工作机制确保了帧在正确的时间点被解码和播放,实现了音视频同步。

音视频同步的实例

以H.264编码格式为例,由于该编码格式支持B帧(双向预测帧),帧的解码顺序可能与播放顺序不一致。例如,假设有以下帧序列:

显示顺序:I B B P
解码顺序:I P B B

在这种情况下,解码器会按照DTS顺序解码帧,但播放器会按照PTS顺序显示帧。这样,即使在解码过程中帧的顺序被打乱,最终在播放时仍然能够保证音视频的同步性。

示例代码

音视频同步是一个复杂的过程,通常涉及到对音频和视频流的解码、时间戳处理以及适当的同步机制。在C++中实现这一功能,我们通常会使用像FFmpeg这样的库来处理媒体数据。以下是一个简化的示例,展示如何使用FFmpeg解码音频和视频流,并尝试进行基本的同步。

请注意,这个示例假设你已经安装了FFmpeg,并配置了相应的开发环境。此外,这个示例不包括实际的音频和视频播放代码,而是专注于解码和时间戳的处理。

#include <iostream>
#include <vector>
#include <algorithm>
#include <chrono>
#include <thread>

extern "C" {
    #include <libavcodec/avcodec.h>
    #include <libavformat/avformat.h>
    #include <libavutil/time.h>
}

// 用于存储解码后的帧
struct Frame {
    AVFrame* av_frame;
    int64_t pts; // 表示帧的显示/播放时间戳
};

// 模拟解码队列
std::vector<Frame> video_frames;
std::vector<Frame> audio_frames;

// 模拟播放队列
std::vector<Frame> play_queue;

// 同步播放函数
void play_frames(std::vector<Frame>& queue) {
    // 这里只是一个示例,实际播放逻辑会更复杂
    for (auto& frame : queue) {
        // 根据帧的pts进行适当的延时以实现同步
        int64_t delay = frame.pts - av_gettime();
        if (delay < 0) delay = 0; // 防止负延时
        std::this_thread::sleep_for(std::chrono::milliseconds(delay));
        // 模拟播放帧
        std::cout << "Playing frame with PTS: " << frame.pts << std::endl;
        av_frame_unref(frame.av_frame);
    }
    queue.clear();
}

// 主函数
int main() {
    // 初始化FFmpeg库
    av_register_all();
    avcodec_register_all();

    // 打开视频文件
    AVFormatContext* format_ctx = nullptr;
    if (avformat_open_input(&format_ctx, "input.mp4", nullptr, nullptr) < 0) {
        std::cerr << "Cannot open input file" << std::endl;
        return -1;
    }

    // 检索流信息
    if (avformat_find_stream_info(format_ctx, nullptr) < 0) {
        std::cerr << "Cannot find stream information" << std::endl;
        return -1;
    }

    // 找到音频和视频流的索引
    int video_stream_idx = -1, audio_stream_idx = -1;
    for (unsigned i = 0; i < format_ctx->nb_streams; i++) {
        if (format_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {
            video_stream_idx = i;
        } else if (format_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_AUDIO) {
            audio_stream_idx = i;
        }
    }

    if (video_stream_idx == -1 || audio_stream_idx == -1) {
        std::cerr << "No audio or video streams found" << std::endl;
        return -1;
    }

    AVCodecContext* video_codec_ctx = avcodec_alloc_context3(nullptr);
    AVCodecContext* audio_codec_ctx = avcodec_alloc_context3(nullptr);

    // 打开音频和视频编解码器
    // ...

    // 模拟解码过程
    AVPacket packet;
    while (av_read_frame(format_ctx, &packet) == 0) {
        if (packet.stream_index == video_stream_idx || packet.stream_index == audio_stream_idx) {
            // 分配帧
            Frame frame{av_frame_alloc(), packet.pts};

            // 解码帧
            // ...

            // 根据类型将帧添加到相应的队列
            if (packet.stream_index == video_stream_idx) {
                video_frames.push_back(frame);
            } else {
                audio_frames.push_back(frame);
            }

            // 同步逻辑(简化示例)
            // 这里需要更复杂的逻辑来处理实际的同步
            if (!play_queue.empty() && video_frames.back().pts < play_queue.front().pts) {
                play_frames(play_queue);
            }

            av_packet_unref(&packet);
        }
    }

    // 清理资源
    avformat_close_input(&format_ctx);
    // ...

    return 0;
}

这个代码提供了一个基本的框架,展示了如何使用FFmpeg库来打开视频文件、检索流信息、找到音频和视频流,以及模拟解码过程。示例没有实现真正的解码和播放逻辑,而是展示了如何组织代码结构以及如何考虑同步问题。

结论

PTS和DTS是音视频同步中不可或缺的两大时间戳。它们确保了在多媒体播放和处理过程中,无论是视频帧还是音频帧,都能在正确的时间点被解码和播放。理解和正确应用PTS和DTS,对于开发高质量的多媒体播放和处理软件至关重要。通过深入理解这些概念,我们可以为用户提供更加流畅和同步的多媒体体验。

祝大家学习顺利~
如有任何错误,恳请批评指正~~
以上是我通过各种方式学习的经验和方法,欢迎大家评论区留言讨论呀,如果文章对你们产生了帮助,也欢迎点赞收藏,我会继续努力分享更多干货~


🎈关注我的公众号AI Sun可以获取Chatgpt最新发展报告以及腾讯字节等众多大厂面经。
😎也欢迎大家和我交流,相互学习,提升技术,风里雨里,我在等你~


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/764993.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【ES】--Elasticsearch的Nested类型介绍

目录 一、问题现象二、普通数组类型1、为什么普通数组类型匹配不准?三、nested类型四、nested类型查询操作1、只根据nested对象内部数组条件查询2、只根据nested对象外部条件查询3、根据nested对象内部及外部条件查询4、向nested对象数组追加新数据5、删除nested对象数组某一个…

Python+Pytest+Allure+Yaml+Pymysql+Jenkins+GitLab接口自动化测试框架详解

PythonPytestAllureYaml接口自动化测试框架详解 编撰人&#xff1a;CesareCheung 更新时间&#xff1a;2024.06.20 一、技术栈 PythonPytestAllureYamlJenkinsGitLab 版本要求&#xff1a;Python3.7.0,Pytest7.4.4,Allure2.18.1,PyYaml6.0 二、环境配置 安装python3.7&…

Windows下快速安装Open3D-0.18.0(python版本)详细教程

目录 一、Open3D简介 1.1主要用途 1.2应用领域 二、安装Open3D 2.1 激活环境 2.2 安装open3d 2.3测试安装是否成功 三、测试代码 3.1 代码 3.2 显示效果 一、Open3D简介 Open3D 是一个强大的开源库&#xff0c;专门用于处理和可视化3D数据&#xff0c;如点云、网格和…

linux内核驱动第一课(基于RK3568)

学习Linux驱动需要以下基础知识&#xff1a; C语言编程&#xff1a;掌握C语言是开发Linux驱动程序的基本要求。操作系统原理&#xff1a;了解操作系统的基本概念和原理&#xff0c;如进程管理、内存管理、中断处理等。Linux内核&#xff1a;熟悉Linux内核的结构和工作机制&…

编译libvlccpp

首先下载vlc sdk https://get.videolan.org/vlc/3.0.9.2/win64/vlc-3.0.9.2-win64.7z Cmake 生成libvlccpp vs2022工程文件 编译libvlccpp 编译出错需修改代码 错误信息&#xff1a; \VLC\sdk\include\vlc/libvlc_media.h(368): error C2065: “libvlc_media_read_cb”: 未…

Python程序语法元素简析

文章目录 Python程序的语法元素是构成Python程序的基础构建块&#xff0c;它们共同决定了程序的结构、逻辑和行为。以下是一些关键的Python语法元素简析&#xff1a; 注释&#xff1a;用于解释代码功能&#xff0c;不被执行。单行注释以#开始&#xff0c;多行注释使用三个单引号…

智能写作与痕迹消除:AI在创意文案和论文去痕中的应用

作为一名AI爱好者&#xff0c;我积累了许多实用的AI生成工具。今天&#xff0c;我想分享一些我经常使用的工具&#xff0c;这些工具不仅能帮助提升工作效率&#xff0c;还能激发创意思维。 我们都知道&#xff0c;随着技术的进步&#xff0c;AI生成工具已经变得越来越智能&…

怎样恢复数据?电脑数据恢复方法详解!

在日常使用电脑或移动设备时&#xff0c;我们难免会遇到数据丢失的情况&#xff0c;如误删除文件、存储设备故障等。数据恢复成了许多人迫切需要解决的问题。本文将为您介绍几种高效的数据恢复方法&#xff0c;帮助您轻松找回丢失的文件。 一、了解数据丢失的原因 在恢复数据…

Centos安装1Panel面板工具安装可视化界面

1Panel是一种市场调研平台&#xff0c;旨在帮助企业进行市场研究和获取消费者反馈。它通过在线调查和观察研究的方式&#xff0c;帮助企业了解他们的目标市场&#xff0c;并针对市场需求做出相应的决策。 1Panel的特点包括&#xff1a; 1. 全球范围&#xff1a;1Panel在全球范…

学习笔记(linux高级编程)10

IPC 进程间通信 interprocess communicate 三大类&#xff1a; 1、古老的通信方式 无名管道 有名管道 信号 2、IPC对象通信 system v BSD suse fedora kernel.org 消息队列(用的相对少&#xff0c;这里不讨论) 共享内存 信号量集 3、socket通信 网络通信 特…

Linux登录界面

Linux登录界面 1. 起因2. 脚本3. 效果 1. 起因 某次刷抖音看到一个博主展示了一个登录页面,觉得蛮好看的.于是自己动手也写一个 2. 脚本 编写脚本/usr/local/bin/login.sh #!/bin/bash Current_timedate %Y-%m-%d %H:%M:%S Versioncat /etc/redhat-release Kernel_Version…

合作协议的网络接入协议

合作协议的网络接入协议 介绍阿里云获取网络接入协议查看合同生成新合同总结 介绍 最近在帮公司弄增值电信业务经营许可证的相关的材料&#xff0c;然后需要我提供网络接入商的网络接入协议。因为每个公司买的服务器可能都不一样&#xff0c;有的阿里云、华为云、腾讯云等还有…

币界网讯,币安准备与SEC 展开长期法律对决

刚刚&#xff0c;数字货币交易所的领头羊Binance公布了法律策略&#xff0c;未来将会采取大胆举措与美国证券交易委员会 (SEC) 展开长期法律斗争&#xff0c;彰显其对监管合规的承诺。小编认为&#xff0c;Binance的这一战略立场是向美国SEC传递的道歉信&#xff0c;自从美国SE…

【0299】Postgres内核之哈希表(Hash Tables)

0. 哈希表(Hash Tables) 哈希表是 一种用于存储键值对的数据结构。与使用索引号访问元素的基本数组不同,哈希表使用键来查找表条目。这使得数据管理对于用户来说更易于管理,因为按属性对数据条目进行分类比按它们在一个巨大的列表中的数量更容易。 在 C++ 中,我们将哈希…

MySQL自学教程:1. MySQL简介与安装

MySQL简介与安装 一、MySQL简介二、MySQL安装(一)Windows系统上的安装(二)Linux系统上的安装(以Ubuntu为例)(三)Mac OS系统上的安装三、安装后的基本配置四、总结一、MySQL简介 MySQL是一个流行的开源关系型数据库管理系统(RDBMS),广泛应用于各种业务场景,从小型个…

干货分享:代理IP的10大误区

在当今的数字时代&#xff0c;代理已成为在线环境不可或缺的一部分。它们的用途广泛&#xff0c;从增强在线隐私到绕过地理限制。然而&#xff0c;尽管代理无处不在&#xff0c;但仍存在许多围绕代理的误解。在本博客中&#xff0c;我们将探讨和消除一些最常见的代理误解&#…

AI太火,今年更缺人了 (含实习)

AI太火了&#xff01;眼睛一睁一闭&#xff0c;一大堆新鲜出炉的前沿科技进展已经塞满未读列表。 许多公司更是开出了高薪&#xff0c; 读者福利&#xff1a;如果大家对大模型感兴趣&#xff0c;这套大模型学习资料一定对你有用 对于0基础小白入门&#xff1a; 如果你是零基础…

构建LangChain应用程序的示例代码:50、如何在检索-生成 (RAG) 应用中利用多模态大型语言模型 (LLM) 处理包含文本和图像的混合文档的示例

多模态 RAG 许多文档包含多种内容类型&#xff0c;包括文本和图像。 然而&#xff0c;大多数 RAG 应用中&#xff0c;图像中捕获的信息往往被忽略。 随着多模态 LLM 的出现&#xff0c;如 GPT-4V&#xff0c;值得考虑如何在 RAG 中利用图像&#xff1a; 选项 1&#xff1a;…

CDC同步器设计方案:为什么使用异步路径?

随着现代ASIC中时钟域的增加&#xff0c;时钟域交叉&#xff08;CDC&#xff09;变得无处不在&#xff0c;必不可少且必不可少。当然&#xff0c;时间安排总是一个问题。高时钟速度和信号路径中的延迟会导致信号到达不希望的时刻&#xff0c;从而导致亚稳性。本文的部分重点介绍…

pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据&#xff0c;显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳&#xff0c;则使用pd.NaT&#xff0c;而文本使用的是None。 首先构造一组数据&#xff1a; 使用None或者np.nan来表示缺失的值&#xff1a; 清理DataFrame时&#xf…