用Python+OpenCV截取视频中所有含有字幕的画面

1、需求背景

有的视频文件的字幕已经压制到了视频的图像中,不能单独提取出字幕文件。网上的 “提取视频字幕” 网站多为提取视频中的字幕文件,而非识别视频图像中的字幕。少数通过OCR技术识别画面中字幕的工具需要在线运行、运行速度较慢,或者需要收费,使用不够灵活。

我希望实现在视频中提取字幕截图的程序,需要解决两个关键问题:一是如何判断视频中是否出现了字幕,二是如何确定字幕何时发生变化。然后在有字幕且字幕刚刚发生变化时,截取并保存字幕图片。

为了解决这两个问题,我的主要思路是利用视频中字幕的固定位置和特殊颜色进行提取。通常情况下,字幕会出现在视频的特定区域,并且其颜色与周围背景颜色不同、并使用固定颜色。我们可以通过指定字幕所在的区域坐标和颜色来提取字幕图像。

然后通过判断在指定区域内符合指定颜色的像素值是否超过阈值,来判断是否存在字幕。而通过判断两帧画面之间的像素差异数是否超过阈值,来判断字幕是否变化

通过这种方式,并根据实际情况调整参数,可以达到比较合适的漏检率和误检率,从而实现较好的字幕提取效果。

2、设计思路

2.1 读取视频的迭代器函数 VideoIter

函数实现从视频中迭代获取指定时间范围内的帧图像,它接受4个参数:file表示视频文件路径,start_time表示开始时间(单位秒,后同),end_time表示结束时间,step_time表示迭代步长。其中start_timeend_time可以设置为负数,表示为相对于总时长的倒数时间位置,step_time设置为负数时表示为倒序迭代视频中的图像。

函数从视频的start_time开始时间开始截取图像,每间隔step_time步长时间捕获一张图像,将帧图像作为生成器(yield)的输出,直到达到end_time结束时间停止。

2.2 图像预处理函数 ProcessImage

函数实现从传入图像中裁剪指定区域、并根据给定的颜色和浮动值进行颜色分割,它接受4个参数:img表示输入的图像,area表示要裁取的区域边界坐标(格式为 (x1, y1, x2, y2)),color表示要分割的颜色(格式为 (r, g, b)),float表示颜色分割时的容差范围值。

函数设计从视频画面中裁取字幕出现位置的区域,然后根据设定的字幕颜色和允许容差匹配出文字区域的蒙版。最后,使用OpenCV的方法根据颜色阈值对图像进行转换,并将函数处理过的图像返回。

2.3 提取视频中字幕图像的主函数 ExtractSubtitle

函数实现从视频中提取字幕图像,它接受7个参数:file表示视频文件路径,area表示字幕所在区域的边界坐标(格式为 (x1, y1, x2, y2)),color表示字幕的颜色(格式为 (r, g, b)),float表示颜色判断时的容差范围值,count_thresh表示像素计数阈值,diff_thresh表示像素差异阈值,delay表示显示图像的延迟时间。

函数通过循环调用VideoIter函数迭代读取视频中的帧图像,并使用ProcessImage函数处理图像,将字幕部分提取出来。在处理过程中,函数统计处理后图像中非零像素的数量,并计算当前图像与上一帧图像的像素差异。如果像素数量和像素差异数值均超过了各自设定的阈值,就将当前帧图像显示输出(作为调试)、并将视频帧图像保存到视频文件同名的文件夹中。文件命名包含帧序号、像素数量、和像素差异数(用于调试参考)。

3、实现代码

import os
import cv2
import numpy as np

def imshow(img, delay=1, title=''):
    cv2.imshow('', img)
    cv2.setWindowTitle('', title)
    cv2.waitKey(delay)

def imwrite(file, im):
    cv2.imencode('.jpg', im)[1].tofile(file)

def VideoIter(file, start_time, end_time, step_time):
    cap = cv2.VideoCapture(file)
    fps = cap.get(cv2.CAP_PROP_FPS)
    total_time = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) / fps
    if np.signbit(start_time):
        start_time += total_time
    if np.signbit(end_time):
        end_time += total_time
    for current_time in np.arange(start_time, end_time, step_time):
        cap.set(cv2.CAP_PROP_POS_FRAMES, int(fps * current_time))
        ret, img = cap.read()
        if not ret:
            break
        yield img
    cap.release()

def ProcessImage(img, area, color, float):
    x1, y1, x2, y2 = area
    img = img[y1:y2, x1:x2]
    r, g, b = color
    rgb1 = (r - float, g - float, b - float)
    rgb2 = (r + float, g + float, b + float)
    img = cv2.inRange(img, rgb1, rgb2)
    return img

def ExtractSubtitle(file, area, color, float, count_thresh, diff_thresh, delay):
    folder = os.path.splitext(file)[0]
    os.makedirs(folder, exist_ok=True)

    img1 = None
    diff = 0
    for id, img in enumerate(VideoIter(file, 0, -1, 1), 1):
        img2 = ProcessImage(img, area, color, float)
        count = cv2.countNonZero(img2)
        if img1 is not None:
            diff = cv2.countNonZero(img1 ^ img2)
        img1 = img2
        if count > count_thresh and diff > diff_thresh:
            imshow(img2, delay=delay, title=f'count={count}, diff={diff}')
            save_path = f'{folder}/img_{id:06}@count={count}@diff={diff}.jpg'
            imwrite(save_path, img)

if __name__ == '__main__':
    video_path = '三体.S01E01.HD1080P.mp4'

    area_xyxy = (564, 722, 1328, 784)
    subtitle_rgb = (250, 250, 250)
    floating_range = 10

    count_thresh = 1000
    diff_thresh = 400
    delay = 1

    ExtractSubtitle(video_path, area_xyxy, subtitle_rgb, floating_range, count_thresh, diff_thresh, delay)

函数运行前有若干参数需要确定,首先是字幕出现的位置字幕的颜色

截取若干典型的视频中包含字幕的图像,然后通过图画板确定字幕出现的位置,用取色器获得字幕的RGB值。

读取字幕位置坐标:

读取字幕位置坐标

字幕颜色取色:

字幕颜色取色

另外两个需要设定的参数,是判断图像中存在字幕的阈值、和字幕发生变化的阈值。很显然,这两个数值都应大于0。

其中,存在字幕的阈值设置得越低,则会有越多的本不包含字幕,但是由于背景色中存在和字幕相同颜色而被误判断成为含有字幕的图片。

发生变化的阈值设置得越低,则会有越多的相同的字幕画面由于图片压缩或背景差异,有少量像素存在区别,被误判断成字幕已经发生变化,导致截取出多余的字幕画面图像

在具体调试时,可以先将这两个参数设定为0,然后运行程序。在弹出的可视化窗口中,在标题中可以看到我设置的这两个参数的计算数值。

结合实际裁取出的图像,我们可以适当地设计这两个门限参数的数值,通过调整参数并观察提取结果,以获得较好的字幕图像截取效果。

4、运行效果

测试运行60分钟的网飞《三体》第一集,一共提取出了600张截图,有比较良好的漏检率和误检率。如果按照1秒钟看5张图的话,2分钟就可以看完60分钟的第一集。

程序运行结果:

程序运行结果

拼合字幕图片:

import glob
import cv2
import numpy as np

imread = lambda file: cv2.imdecode(np.fromfile(file, np.uint8), -1)
imwrite = lambda file, img: cv2.imencode('.jpg', img)[1].tofile(file)

def MergeSubtitles(folder, h1, h2):
    imgs = []
    for path in glob.glob(f'{folder}/*.jpg'):
        img = imread(path)
        imgs.append(img[h1:h2])
    final_image = cv2.vconcat(imgs)
    imwrite(f'{folder}.jpg', final_image)

if __name__ == '__main__':
    MergeSubtitles('三体.S01E01.HD1080P', 722, 784)

最终图片效果:

截图效果展示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/527694.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spark记录未整理

Spark记录未整理,请以较平静的心态阅读。 目的: 根据user_id进行分组,同时将同一user_id看过的anime_id转化为一个字符串数组(anime_ids),将anime_ids转化为二维的list [[[20, 81, 170, 263…],[]…]&#…

【芯片设计- RTL 数字逻辑设计入门 1.1 -- Verdi 使用入门介绍 1】

请阅读【芯片设计 RTL 数字逻辑设计扫盲 】 文章目录 Verdi 介绍Verdi 特点和功能Verdi 基本操作Verdi -elab与-dbdir区别-elab 参数介绍-dbdir 参数介绍区别总结Verdi 介绍 Verdi 是由Synopsys公司开发的一款业界领先的自动化电子设计自动化(EDA)工具,主要用于功能验证和调…

java数据结构与算法刷题-----LeetCode628. 三个数的最大乘积

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 排序选择线性搜索最值 排序 解题思路:时间复杂度O( …

React - 你知道在React组件的哪个阶段发送Ajax最合适吗

难度级别:中级及以上 提问概率:65% 如果求职者被问到了这个问题,那么只是单纯的回答在哪个阶段发送Ajax请求恐怕是不够全面的。最好是先详细描述React组件都有哪些生命周期,最后再回过头来点题作答,为什么应该在这个阶段发送Ajax请求。那…

【踩坑】修复Latex表格竖线分割/竖线割断/竖线不完整问题

转载请注明出处:小锋学长生活大爆炸[xfxuezhang.blog.csdn.net] 推荐一下 Latex 三线表 横线竖线短横线【踩坑】Latex中multicolumn/multirow单元格竖线消失的恢复方法LaTeX简单常用方法笔记Latex论文写作小技巧记录 1、有时候在画表格的时候,可能会出现…

51单片机之自己配串口寄存器实现波特率9600

本配置是根据手册进行开发配置的 1、首先配置SCON 所以综上所诉 SCON 0x40 (0100 0000) 2、PCON不用配置 3、配置定时器1 4、波特率的计算 5、配置AUXR 6、对比 7、实现 8、优化(实现字符串) 引入TI (智能延时&…

CLIPSeg如果报“目标计算机积极拒绝,无法连接。”怎么办?

CLIPSeg这个插件在使用的时候,偶尔会遇到以下报错: Error occurred when executing CLIPSeg: (MaxRetryError("HTTPSConnectionPool(hosthuggingface.co, port443): Max retries exceeded with url: /CIDAS/clipseg-rd64-refined/resolve/main/toke…

基于jenkins+gitlab+docker部署zabbix

背景 我现在已经在一台服务器上部署了jenkins和gitlab,现在有一个场景是需要在服务器上再部署一个zabbix,需要通过jenkins加上gitlab部署,并且要求zabbix是通过docker部署的 前提条件 jenkins、gitlab已完成部署并能正常访问,服…

从路由器syslog日志监控路由器流量

路由器是关键的网络基础设施组件,需要随时监控,定期监控路由器可以帮助管理员确保路由器通信正常。日常监控还可以清楚地显出通过网络的流量,通过分析路由器流量,安全管理员可及早识别可能发生的网络事件,从而避免停机…

C语言 | Leetcode C语言题解之第9题回文数

题目&#xff1a; 题解&#xff1a; bool isPalindrome(int x) {if(x < 0)return false;long int sum0;long int nx;while(n!0){sumsum*10n%10;nn/10;}if(sumx)return true;elsereturn false; }

MongoDB基本操作之备份与恢复【验证有效】

资源获取 MongoDB Database Tools 解压zip包&#xff0c;将其中的工具复制到bin目录下 mongodump与mongorestore – 备份 mongodump -h localhost:27017 -u admin -p pass --authenticationDatabase admin -d runoob -o /usr/local/mongo/bak/ --forceTableScan –切换数据库…

《系统架构设计师教程(第2版)》第8章-系统质量属性与架构评估-03-ATAM方法架构评估实践(下)

文章目录 3. 测试阶段3.1 头脑风暴和优先场景&#xff08;第7步&#xff09;3.1.1 理论部分3.1.2 示例 3.2 分析架构方法&#xff08;第8步&#xff09;3.2.1 调查架构方法1&#xff09;安全性2&#xff09;性能 3.2.2 创建分析问题3.2.3 分析问题的答案胡佛架构银行体系结构 3…

深入理解JVM垃圾收集器

相关系列 深入理解JVM垃圾收集算法-CSDN博客 目前市面常见的垃圾收集器有Serial、ParNew、Parallel、CMS、Serial Old、Parallel Old、G1、ZGC以及有二种不常见的Epsilon、Shenandoah的&#xff0c;从上图可以看到有连线的的垃圾收集器是可以组合使用&#xff0c;是年轻代老年代…

快速删除node_modules

1.rd /s /q node_modules 2.rimraf node_modules/ 亲测可用

Java零基础入门-封装

一、概述 谈起面向对面编程&#xff0c;我们都知道有三大特征【封装、继承、多态】&#xff0c;跟随我一起学习的小伙伴都知道&#xff0c;对于三大特征的后两种&#xff0c;我们在前两期已经讲过了&#xff0c;至于我为啥没有按照特征顺序来教学&#xff0c;是因为我常不按规律…

MySQL8.3.0 主从复制方案(master/slave)

一 、什么是MySQL主从 MySQL主从&#xff08;Master-Slave&#xff09;复制是一种数据复制机制&#xff0c;用于将一个MySQL数据库服务器&#xff08;主服务器&#xff09;的数据复制到其他一个或多个MySQL数据库服务器&#xff08;从服务器&#xff09;。这种复制机制可以提供…

Android Studio中查看和修改project的编译jdk版本

android studio中查看和修改project的编译jdk版本操作如下&#xff1a; File->settings->Build,Execution,deployment->Build Tools->Gradles 进入Gradles页面可以查看并修改project的编译jdk版本&#xff0c;如图所示

基于 Lambda 实现 Claude3 的流式响应

在如今的大语言模型推理输出场景中&#xff0c;流式响应基本已成为必备的功能之一。一方面符合大语言模型生成方式的本质&#xff0c;另一方面当模型推理效率不是很高时&#xff0c;流式响应比起全部 generate 后再输出、能大幅缩短从开始请求到输出第一个 Token 的时间&#x…

访问网站显示不安全是什么原因?怎么解决?

访问网站时显示“不安全”&#xff0c;主要原因以及解决办法&#xff1a; 1.没用HTTPS加密&#xff1a;网站还在用老的HTTP协议&#xff0c;数据传输没加密&#xff0c;容易被人偷看或篡改。解决办法是网站管理员启用HTTPS&#xff0c;也就是给网站装个“SSL证书”。这个是最常…

5.6 mybatis之RowBounds分页用法

文章目录 mybatis 中&#xff0c;使用 RowBounds 进行分页&#xff0c;非常方便&#xff0c;不需要在 sql 语句中写 limit&#xff0c;即可完成分页功能。但是由于它是在 sql 查询出所有结果的基础上截取数据的&#xff0c;所以在数据量大的sql中并不适用&#xff0c;它更适合在…