使用node爬取视频网站里《龙珠》m3u8视频

1. 找到视频播放网站

百度一下 龙珠视频播放  精挑细选一个可以播放的网站。
 如:我在网上随便找了一个播放网站,可以直接在线播放   https://www.xxx.com/play/39999-1-7.html

这里不具体写视频地址了,大家可以自行搜索 

2.分析网页DOM结构 找出视频资源地址

可以看到 整块播放内容在 td#playleft 下的 iframe 引入。

验证一下:把 https://xxx/yun/?url=https://XXX/20221016/npV6fcC2/index.m3u8 地址在浏览器内直接访问 发现可以正常播放视频

那这串地址就是我们所需要的视频文件资源路径。那我们接下来就需要想办法根据这个路径把视频保存到本地。

3.批量获取视频播放地址

        虽然通过第二步的操作 我们可以拿到了第一话的视频资源地址,但是是手动完成的。需要想办法能批量的拿到第一部153话的所有资源地址。

        想拿到所有视频的视频资源地址的前提是拿到所有视频的播放地址。所以我们要先想办法拿到每一集的播放地址。

        点击播放第1话 第2话 第3话 ,可以看到 浏览器URL 分别是

        第1话  /play/39999-1-1.html 

        第2话 /play/39999-1-2.html  

        第3话/play/39999-1-3.html 


分析视频网站的地址不难看出 规律, 递增n就可以获取到每一话的在线播放地址

let n = 1
let urlArr = []
while(n < 154){
    urlArr.push('/play/39999-1-' +n+'.html' ) 
    n++
}
console.log(urlArr )

4.批量获取视频资源地址

        通过第三步我们已经拿到了 每一话的播放地址,那就要想办法拿到 每一个播放地址下的td#playleft 下的 iframe 的 src。

1.第一次尝试

        直接获取 /play/39999-1-1.html 的页面结构,尝试从返回的dom中找到 td#playleft 下的 iframe。但是并没有找到相关的DOM,推测应该是动态添加的 节点,第一次尝试失败

var request = require('request');

request(`https://www.xxx.com/play/39999-1-1.html`, function (err, res, body) {
  console.log(err, res, body);
});

2.第二次尝试

        既然直接拿不到那就等页面加载完成再去拿,所以第二种方案就是 在本地项目中 通过 iframe引入 

https://www.xxx.com/play/39999-1-1.html     等 iframe onload之后再去获取iframe.contentDocument 下的 

<body>
  <iframe id="iframe" src="https://www.xxx.com/dragon/39999-1-1.html" onload="loadPage()" frameborder="0"></iframe>
</body>

<script>
function loadPage(e){
    let iframe = document.getElementsByTagName('iframe')[0]
    var iframeDocument = iframe.contentDocument || iframe.contentWindow.document;
    console.log(iframeDocument )
}
</script>

但是呢 并没有拿到 ,

虽然拿到了ifram的dom,但是呢 拿不到 contentDocument。

这是为什么呢?

新机呲挖一呲冒黑套呲  真相只有一个

iframe src 的跨域问题,  

方案二失败 

3.第三次尝试

        第三次的尝试是和第二次思路一样的,所以主要任务是解决 iframe的跨域问题,

<iframe id="iframe" src="/dragon/39999-1-1.html" onload="loadPage()" frameborder="0"></iframe>

    代理一下吧

    # 龙珠
	server {
        listen       9001;
       
		location / {
            root   E:/dragonBall;
            index  index.html index.htm;
			try_files $uri $uri/ @router;
        }
		location /dragon {
            proxy_pass https://www.xxx.com/play;
        }
		location /_guard {
            proxy_pass https://www.xxx.com;
        }
		location /template {
            proxy_pass https://www.xxx.com;
        }
		location /static {
            proxy_pass https://www.xxx.com;
        }
		 
    }

至此 终于拿到了 在线播放页面的全部DOM数据

那么简单的处理下数据 就可以拿到每一话的 视频资源地址了

(这里直接循环了,也可以直接使用第3步获取的视频播放地址,逻辑是一致的)

<script>
  let num = 1
  let arr = []
  function loadPage(e){
    arr = localStorage.getItem('streamUrl')
    if(arr){
      arr = JSON.parse(arr)
    }else{
      arr = []
    }
    if(num > 154) return 
    let iframe = document.getElementsByTagName('iframe')[0]
    var iframeDocument = iframe.contentDocument || iframe.contentWindow.document;

    var iframeElement = iframeDocument.getElementById('playleft').getElementsByTagName('iframe')[0];
    let streamUrl = iframeElement.attributes.src.value.split('?url=')[1]
    
    console.log('这是第'+ num +"话:"+streamUrl)
    arr.push({
      index:num,
      url:streamUrl
    })
    num ++
    localStorage.setItem('streamUrl',JSON.stringify(arr))
    iframe.src = "/dragon/39999-1-"+num+".html"

  }
</script>

5.根据m3u8的资源地址下载视频

首先封装一个下载视频的函数

function downloadMedia (opt, callback) {
  // 测试视频,如果链接失效的话就自己找一个
  let url = opt.url ;
  let output = opt.output || 'video';
  
  let filename = opt.index + '.mp4';
  let title = opt.title || '测试视频';
  
  if (!fs.existsSync(output)) {
    fs.mkdirSync(output, {
      recursive: true,
    });
  }

  (async function() {
    try {
      console.log("准备下载...");

      await converter
        .setInputFile(url)
        .setOutputFile(path.join(output, filename))
        .start();

      console.log("下载完成!");

      if ( typeof callback === 'function' ) callback(opt.index);
    } catch (error) {
      console.log(error)
      throw new Error("哎呀,出错啦! 检查一下参数传对了没喔。", error);
    }
  })(); 

}

然后 再遍历一下我们拿到的视频资源地址 ,轮询调用一下 下载方法 就可以了


let arr = [
    {
        "index": 1,
        "url": "https://xxx/20221016/npV6fcC2/index.m3u8"
    },
    ...
    {
        "index": 153,
        "url": "https://xxx/20221016/6AaX2hCl/index.m3u8"
    }
]

let callback = function(index){
    let indexName = arr[index - 1].index
    if(indexName.length === 1){
        indexName = '00' + indexName
    } 
    if(indexName.length === 2){
        indexName = '0' + indexName
    }
    downloadMedia({url:arr[indexName].url,index:arr[indexName].index},callback)
}

downloadMedia({url:arr[0].url,index:'001'},callback)

我现在设置的是一次下载1个文件,也可以修改下同时下载多个,注意别把 视频网站搞崩了。

总结:

        主要问题还是获取到资源地址。处理好资源地址的问题,就可以轮询下载了。

附:

gitee源码

仓库 - wangbanglei (wangbangleilei) - Gitee.com

注:仅供学习使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/501077.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

进程间的通信方式

进程间的通信方式 进程间的通信方式管道&#xff08;pipe&#xff09;命名管道&#xff08;named pipe&#xff09;信号&#xff08;signal&#xff09;消息队列&#xff08;message queue&#xff09;共享内存&#xff08;shared memory&#xff09;信号量&#xff08;semapho…

回溯dfs和分支限界bfs

一&#xff1a;拓扑排序 207. 课程表 这道题说白了就是在有向图中找环 拓扑排序实际上应用的是贪心算法。 贪心算法简而言之&#xff1a;每一步最优&#xff0c;全局就最优。 每一次都从图中删除没有前驱的顶点&#xff0c;这里并不需要真正的删除操作&#xff0c;通过设置入度…

Solana 2024 投资新风口:挖掘 DeFi、硬件开发与交易创新

将区块链的技术红利带给所有用户&#xff0c;Solana 自 2017 年诞生以来就致力于赋予开发者、消费者、投资人等各路人士的优越应用体验。在“以太坊杀手”林立的公链竞争阶段&#xff0c;Solana 凭借高性能公链的独特定位&#xff0c;朝着去中心化、安全性、低成本的目标不断精…

SpringBoot实现RabbitMQ的定向交换机(SpringAMQP 实现Direct定向交换机)

文章目录 Direct 交换机特点实战声明交换及其队列(以注解方式)发消息 应用 上一篇文章中的 Fanout 模式&#xff0c;一条消息&#xff0c;会被所有订阅其交换机的队列都消费。 但是&#xff0c;在某些场景下&#xff0c;我们希望不同的消息被不同的队列消费。这时就要用到 Dir…

蓝桥杯day14刷题日记

P8707 [蓝桥杯 2020 省 AB1] 走方格 思路&#xff1a;很典型的动态规划问题&#xff0c;对于偶数格特判&#xff0c;其他的正常遍历一遍&#xff0c;现在所处的格子的方案数等于左边的格子的方案数加上上面格子的方案数之和 #include <iostream> using namespace std; …

WPF 路由事件 数据驱动 、Window 事件驱动

消息层层传递&#xff0c;遇到安装有事件侦听器的对象&#xff0c;通过事件处理器响应事件&#xff0c;并决定事件是否继续传递&#xff1b; 后置代码中使用AddHandler方法设置事件监听器&#xff0c;该方法的 第一个参数是指定监听的路由事件类型对象&#xff0c; 第二个参数…

企业数据资产管理的战略价值与实施策略

一、引言 数据资产不仅记录了企业的历史运营情况&#xff0c;更能够揭示市场的未来趋势&#xff0c;为企业的决策提供有力支持。因此&#xff0c;如何有效地管理和利用数据资产&#xff0c;已经成为企业竞争力的重要体现。本文将探讨企业数据资产管理的战略价值与实施策略&…

新能源充电桩站场视频汇聚系统建设方案及技术特点分析

随着新能源汽车的普及&#xff0c;充电桩作为新能源汽车的基础设施&#xff0c;其安全性和可靠性越来越受到人们的关注。为了更好地保障充电桩的安全运行与站场管理&#xff0c;TSINGSEE青犀&触角云推出了一套新能源汽车充电桩视频汇聚管理与视频监控方案。 方案采用高清摄…

SMART PLC温度变化率计算功能块(算法框图+代码)

SMART PLC文章控制专用PID请参考下面文章链接: https://rxxw-control.blog.csdn.net/article/details/136702516https://rxxw-control.blog.csdn.net/article/details/136702516 1、监控下温度变化率 2、温度变化率计算功能块 3、计算周期到达

PCA+DBO+DBSCN聚类,蜣螂优化算法DBO优化DBSCN聚类,适合学习,也适合发paper!

PCADBODBSCN聚类&#xff0c;蜣螂优化算法DBO优化DBSCN聚类&#xff0c;适合学习&#xff0c;也适合发paper&#xff01; 一、蜣螂优化算法 摘要&#xff1a;受蜣螂滚球、跳舞、觅食、偷窃和繁殖等行为的启发&#xff0c;提出了一种新的基于种群的优化算法(Dung Beetle Optim…

BGP实训

BGP基础配置实训 实验拓扑 注&#xff1a;如无特别说明&#xff0c;描述中的 R1 或 SW1 对应拓扑中设备名称末尾数字为 1 的设备&#xff0c;R2 或 SW2 对应拓扑中设备名称末尾数字为2的设备&#xff0c;以此类推&#xff1b;另外&#xff0c;同一网段中&#xff0c;IP 地址的主…

Harbor部署

Harbor部署 下载和安装 github下载地址&#xff1a;https://github.com/goharbor/harbor/releases 解压和配置 # 解压tgz包 tar -zxvf harbor-offline-installer-v2.10.1.tgz # 进入目录后进行复制配置文件 cd harbor/ # 创建一个配置文件 cp harbor.yml.tmpl harbor.yml …

RabbitMQ基础笔记

视频链接&#xff1a;【黑马程序员RabbitMQ入门到实战教程】 文章目录 1.初识MQ1.1.同步调用1.2.异步调用1.3.技术选型 2.RabbitMQ2.1.安装2.1.1 Docker2.1.1 Linux2.1.1 Windows 2.2.收发消息2.2.1.交换机2.2.2.队列2.2.3.绑定关系2.2.4.发送消息 2.3.数据隔离2.3.1.用户管理2…

金三银四面试题(七):JVM常见面试题(1)

JVM会有许多零碎但是却很高频的基础考题。牢记这些&#xff0c;才能保证不在面试中落后于人。 说说对象分配规则 这也是之前面试腾讯时候被问到的问题&#xff1a;请介绍JVM如何分配对象&#xff1f; 对象优先分配在Eden 区&#xff0c;如果Eden 区没有足够的空间时&#xf…

nysm:一款针对红队审计的隐蔽型后渗透安全测试容器

关于nysm nysm是一款针对红队审计的隐蔽型后渗透安全测试容器&#xff0c;该工具主要针对的是eBPF&#xff0c;能够帮助广大红队研究人员在后渗透测试场景下保持eBPF的隐蔽性。 功能特性 随着基于eBPF的安全工具越来越受社区欢迎&#xff0c;nysm也应运而生。该工具能保持各种…

简单线程池的实现

线程池的代码可以写的很复杂&#xff0c;这里就稍微简单一些 首先来看一下线程池的原则&#xff0c;下面的大框是服务器&#xff0c;而在服务器中维护一个任务队列。 然后在server中预先创建一批线程&#xff0c;这批线程和任务队列合在一起只用向外界提供一个入队列的接口。 …

【php程序开发从入门到精通】——搭建PHP开发环境

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

搜索与图论——Floyd算法求最短路

floyd算法用来求多源汇最短路 用邻接矩阵来存所有的边 时间复杂度O(n^3) #include<iostream> #include<cstring> #include<algorithm>using namespace std;const int N 20010,INF 1e9;int n,m,k; int g[N][N];void floyd(){for(int k 1;k < n;k ){f…

计算机网络(第八版)-第1章课后习题参考答案

计算机网络(第八版)-第1章课后习题参考答案 本文是对自己之前文章的格式化&#xff1a;https://blog.csdn.net/qq_46396470/article/details/132788972?spm1001.2014.3001.5502 T1-01 计算机网络向用户可以提供哪些服务&#xff1f; 连通性和共享 &#xff0c;例如音频&…

docker环境配置过程中的常见问题

1、pull镜像问题 docker pull jenkins/jenkins:lts Using default tag: latest Trying to pull repository docker.io/library/centos ... Get https://registry-1.docker.io/v2/library/centos/manifests/latest: Get https://auth.docker.io/token?scoperepository%3Alibr…