全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

🌟 ❤️

作者:yueji0j1anke

首发于公号:剑客古月的安全屋

字数:801

阅读时间:    10min

声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。合法渗透,本文章内容纯属虚构,如遇巧合,纯属意外

一.总体概述

js逆向

最近被迫又打比赛了,属于是比赛等级一高就得重构一下子,准备凑齐几百万评论进行模型训练,这次盯上b站

先上效果图

爬取过程的日志记录

image-20240524145636929

image-20240524145649799

image-20240524145705513

弹幕结果

image-20240524145748844

评论结果

image-20240524145820440

目前加入了日志、多线程模块,在启动主程序前只需要在config下填入要爬取的视频即可

image-20240524150337268

二.爬虫过程

首先爬弹幕

image-20240524150427597

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的,根本不可能提取到像我之前展示的效果,于是我仔细分析js,得出了其的弹幕其实还映射到了xml文件上的,爬这个xml文件大幅度就可以降本增效,这里就不泄露机密了,有兴趣的可以找我私聊。

其次爬评论,老生常谈了

image-20240524150655523

在评论区疯狂的下拉后即出现了该条请求,纵观全网好像并没有关于评论的翻页爬取,究极原因是因为翻页逻辑并不好找,并且涉及到了js逆向

image-20240524150750677

wts就是时间戳,w_rid一看就是md5了,所以打断点

全区搜索一下,都给他打上,然后加载评论

image-20240523214307650

image-20240523101459479

image-20240523214255591

image-20240524100605048

最后发现是根据我们的param与一个静态密钥组合而成,随后生成md5值(大过程略掉,避免小破站找我麻烦)

image-20240524150957318

三.后续

接口没有限制,爬了大概两百多万份,美滋滋了,接下来就是做情感分析,词云图和可视化入库等操作了~

目前已经爬取了x音,小x书,某乎

原文链接 爬虫实训-b站爬取弹幕+评论百万之js逆向与xml降本增效

如果对项目有兴趣的小伙伴可以关注公众号 剑客古月的安全屋 获取联系方式进行私聊~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/637418.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

K-means聚类模型

目录 1.定义 2.K-means聚类模型的优点 3.K-means聚类模型的缺点 4.K-means聚类模型的应用场景 5.对K-means聚类模型未来的展望 6.小结 1.定义 什么是 K-means 聚类模型?K-means 聚类模型是一种无监督学习算法,用于将数据划分为不同的组或簇&#…

概念+bug

模型 迭代模型和增量模型 增量模型是将一个大的需求变成小的功能,然后将每个功能逐个开发几乎完整再上线。 迭代模型会上线一个基础版本,但是基础版本所有的功能都有但是非常简陋,之后再迭代优化上线。 一般都是两个一起用,不…

微服务Day7学习

文章目录 数据聚合聚合分类 自动补全DSL实现Bucket聚合DSL实现Metrics聚合RestAPI实现聚合多条件聚合对接前端接口拼音分词器自定义分词器自动补全查询实现酒店搜索框自动补全 数据同步数据同步思路分析利用mq实现mysql与elasticsearch数据同步 集群介绍搭建ES集群 数据聚合 聚…

T01.如何寻找隐藏目录usr?

当我们打开Mac自带的Shell或者另外安装的zsh等工具时,我们所在的默认目录为用户目录usr。 Mac的这个bin目录,是一个已经包含在环境变量里的目录,程序放在里面或者链接到里面就可以在终端里直接执行。Mac的usr/bin目录是不允许增删文件的&…

tomcat三级指导

版本 ./catalina.sh linux version.bat win 1.确认是否使用了tomcat管理后台 我们先找到配置文件:tomcat主目录下/conf/server.xml 可以查看到连接端口,默认为8080 然后查看manager-gui管理页面配置文件,是否设置了用户登录 配置文件…

Obsidian Git 多端同步

2023年6月,某云笔记限制了免费用户最多同时登录 2 台设备,想要增加设备数量需要付费开通会员。之后我一直想找一款合适的笔记本软件,年底尝试了Obsidian,断断续续摸索了好几天终于成功了。将那时的笔记拿来分享一下。 相关地址&am…

Java轻松转换Markdown文件到Word和PDF文档

Markdown 凭借其简洁易用的特性,成为创建和编辑纯文本文档的常用选择。但某些时候我们需要更加精致的展示效果,例如在专业分享文档或打印成离线使用的纸质版时,就需要将Markdown文件以其他固定的文档格式呈现。通过将 Markdown 转换为 Word 和…

错误代码126:加载x3daudio1_7.dll失败的几种修复方法分享

在使用电脑玩游戏或者工作的过程中,我们经常会遇到一些错误提示,其中最常见的就是“错误代码[126]:加载x3daudio1_7.dll失败,该文件缺失或损坏!”,那么,什么是x3daudio17.dll文件?它为什么会丢失&#xff1…

剪画小程序:3个方法:告诉你如何将普通的照片转换成动漫二次元风格!

Hello!亲爱的小伙伴们! 你是否还在纠结于自己的自拍太普通,每次分享到社交账号上都觉得平平无奇,引不起波澜? 假如,你和朋友们一起出去玩,大家都开心地拍着自拍。你看着自己的照片&#xff0c…

多联机分户计费控制系统

中央空调多联机分户计费控制系统,针对国内常见几种品牌的多联机空调系统实行,远程控制与计费管理。系统采用MQTT网络协议,以订阅/发布模式实行设备感知,实现对室外机、室内机的状态监测、实时故障报警、累计分摊费用的实时数据传导…

SSMP整合案例第一步 制作分析模块创建与开发业务实体类

制作分析 我们要实现一个模块的增删改查 实际开发中mybatisplus用的不多,他只能对没有外键的单表进行简单的查询 但在这个案例中我们还是选择mybatisplus开发 模块创建 我们把所有服务器都放在一起 就不用前后端分离 我们尝试用后端开发进行全栈开发 新建项目添…

C++语法|多重继承详解(一)|理解虚基类和虚继承

系列汇总讲解,请移步: C语法|虚函数与多态详细讲解系列(包含多重继承内容) 虚基类是多重继承知识上的铺垫。 首先我们需要明确抽象类和虚基类的区别: 抽象类:有纯虚函数的类 虚基类是什么呢&a…

精选ThingsBoard物联网关

Thingsboard网关BL104 ThingsBoard物联网网关是一个指可以将数据采集转发至ThingsBoard平台的物联网网关,它使用且仅使用MQTT协议与ThingsBoard平台(ThingsBoard IoT Platform)进行通讯。这个网关为ThingsBoard平台提供支持更多协议的数据收…

poi操作word模板,对原有的word修改

/*** 化工园区调查表** param templatePath* param outPath* param parkInterview*/public static String getDocx(String templatePath, String outPath, ParkInterview parkInterview){File file new File(templatePath);File file1 new File(outPath);if(!file1.exists()…

2024 年 电工杯(B题)大学生数学建模挑战赛 | 平衡膳食食谱 | 数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时,你是否曾经感到茫然无措?作为2022年美国大学生数学建模比赛的O奖得主,我为大家提供了一套优秀的解题思路,让你轻松应对各种难题。 CS团队倾注了大量时间和心血,深入挖掘解决方案。通…

怎么查看公网IP?

在网络通信中,每个设备都会被分配一个IP地址,用于在互联网上进行唯一标识和通信。公网IP是指可以被公开访问的IP地址,可以用来建立远程连接或者进行网络访问等操作。怎么查看公网IP呢?下面将介绍几种常用的方法。 使用命令行查询公…

《中国企业报》集团数字产业发展研究院介绍

《中国企业报》集团数字产业发展研究院(以下简称“中企数研院”),隶属于《中国企业报》集团管理。“中企数研院”致力于“数字经济产业化发展战略”大背景下,以“县域数字经济”、“企业数字化转型”及“数字人民币”推广等发展方…

图像超分辨率重建相关概念、评价指标、数据集、模型

1、图像超分辨率概念 1.1 基本定义 超分辨率(Super-Resolution),简称超分(SR)。是指利用光学及其相关光学知识,根据已知图像信息恢复图像细节和其他数据信息的过程,简单来说就是增大图像的分辨…

springboot 配置动态调整profiles-active参数

配置动态调整active参数&#xff1a; 1.bootstrap.yml中&#xff1a; spring:profiles:active: spring.profiles.active #占位符 替换 2.pom.xml中配置&#xff1a; <build><resources><resource><directory>src/main/resources</directory>&…