狂雨CMS-采集规则(novelfull.com)

1. 填写采集规则的基本信息

首先点击采集管理中的添加按钮来新建规则:

然后进入到信息页面填写,包括:

    规则名称:一般以要采集的源站名命名。

    网站编码:默认自动检测即可。

    类型:根据网站类型来选择,一般选小说

    网址补全:默认选是即可

    倒叙采集:一般否即可

    图片本地化:一般选否,如果原网站做了反爬虫机制,就要选是;另外根据自己服务器硬盘大小选择,不要因为图片占用太多内存。

    重复数据处理:一般选择不处理,这样碰到重复小说时,你采集就会告诉你已存在,不会重复采集。但这个要看是否多次采集,如果一个站点之前有使用其它采集规则有了数据,那么再使用新的采集规则很有可能会采集到与之前重复的数据,所以这时候需要判断是否把重复的数据替换成当前采集规则采集的数据。

重复数据处理:若选择不处理,采集同本小说时则告知已存在

重复数据处理:若选择处理,采集同本小说时则告知替换成功

2. 填写列表网址

首先用浏览器访问要采集的网页,然后网页对应的网址就是采集网址,page后面对应的参数用通配符【内容】替换,总页数只需要点击网页中的last按钮就知道多少页。图片中的网址总页数是19.

根据上述网址信息来编辑列表网址信息:

3. 填写列表网址(小说列表网址)

接下来我们要获取所有小说名称及其对应的网址连接,首先我们把鼠标放到某个小说上,然后点击鼠标右键,点击检查:

这样就得到了网页源代码,然后我们把鼠标放到箭头位置,就可以看到左边蓝色部分框住的就是对应小说的网页位置。

但我们想要找到框住所有小说的源代码,很简单,用鼠标继续放到更大的div范围。可以看到,图片中的箭头位置就是框住所有小说的div。显然它是唯一的,所以需要填写的获取区间为:

<div class="list list-truyen col-xs-12">[内容]</div></div></div></div>

然后对应的小说链接只要找到框住href的位置即可,显然h3包住的部分是唯一的,所以需要填写的网址规则为:

<h3 class="truyen-title"><a href="[内容1]" title="(*)">(*)</a></h3>

注意了,这里为什么用h3而不直接用a href;其实展开了可以看到,后面还有一个链接是对应最新章节的,导致a href并不是唯一的,所以必须用h3来保证唯一性。

最终的列表规则完整填写如下:

4. 填写关联网址(章节列表网址)

单击某一本小说后进入到小说详情页面

进入到小说详情页后可以看到所有章节列表:

那我们和获取到所有章节名称和对应链接呢?其实和前面获取小说名称和链接完全类似,首先鼠标移到某一章上鼠标右键,然后点击检查获取网页源代码:

同样我们先要找到框住所有章节的源代码,用鼠标继续放到更大的div范围。可以看到,图片中的箭头位置就是框住所有章节的div。显然它是唯一的,所以需要填写的获取区间为:

<div class="row"><div class="col-xs-12 col-sm-6 col-md-6">[内容]</ul></div></div>

然后对应的章节链接只要找到框住href的位置即可,这里可以看到,每个章节只有一个对应的href链接,所以href是唯一的,只需要填写href这段内容即可,所以网址规则为:

<a href="[内容1]" title="[章节标题]">(*)</span></a>

最终的关联网址规则完整填写如下:

4. 填写内容规则

栏目规则

我直接用的固定规则,因为狂雨采集时不支持同时并入多个分类。

假如你用对应分类会报匹配错误,原因很简单:内容是读取出来的整个大字符串,并没有按照预想的去根据逗号拆分多分类(规则不支持)。

名称规则:<h3 class="title">[内容1]</h3>

作者规则:<div><h3>Author:</h3>[内容1]</div>

连载规则:<div><h3>Status:</h3><a href="(*)">[内容1]</a></div>

图片规则:<meta name="image" content="[内容1]">

介绍规则:<div class="desc-text"><p>[内容1]</p></div>

标签规则:<div><h3>Genre:</h3>[内容1]</div>

章节名称规则:<span class="chapter-text">[内容1]<span>

注意:这里的目标页换成章节列表,即去某一章节页面获取

点击测试规则后可以看到获取到了章节名称

这里注意一点,如果直接复制原始源代码标签,这里应该是:<span class="chapter-text">[内容1]<span></span></span>,但是你测试规则会发现查不到结果。

所以我们在做规则匹配的时候一定要保证唯一性的前提下尽量简洁,去掉不必要的标签。

章节内容规则:<div id="chapter-content" class="(*)" style="(*)">[内容1]<div  align(*)>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/444719.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java ~ word模板填充字符后输出到指定目录

word文件格式&#xff1a; jar包&#xff1a; <dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.10.0</version></dependency>样例代码&#xff1a; // 封装参数集合Map<String, Ob…

常见3大web漏洞

常见3大web漏洞 XSS攻击 描述&#xff1a; 跨站脚本&#xff08;cross site script&#xff09;-简称XSS&#xff0c;常出现在web应用中的计算机安全漏桶、web应用中的主流攻击方式。 攻击原理&#xff1a; 攻击者利用网站未对用户提交数据进行转义处理或者过滤不足的缺点。 …

201909 青少年软件编程(Scratch)等级考试试卷(一级)

第1题&#xff1a;【 单选题】 小明在做一个采访的小动画&#xff0c;想让主持人角色说“大家好&#xff01;”3秒钟&#xff0c;用下列程序中的哪一个可以实现呢&#xff1f;&#xff08; &#xff09; A: B: C: D: 【正确答案】: B 【试题解析】 : 第2题&#xff1a…

201906 青少年软件编程(Scratch)等级考试试卷(一级)

第1题&#xff1a;【 单选题】 从下列哪个区域中可以找到编程所需指令积木&#xff08; &#xff09; A:舞台区 B:指令标签区 C:角色列表区 D:造型 【正确答案】: B 【试题解析】 : 第2题&#xff1a;【 单选题】 下图中共有几个三角形&#xff08; &#xff09; A:3 个…

机器学习-pytorch1(持续更新)

上一节我们学习了机器学习的线性模型和非线性模型的机器学习基础知识&#xff0c;这一节主要将公式变为代码。 代码编写网站&#xff1a;https://colab.research.google.com/drive 学习课程链接&#xff1a;ML 2022 Spring 1、Load Data&#xff08;读取数据&#xff09; 这…

领域模型设计-COLA架构

前言 当我们需要创建的新应用的时候&#xff0c;往往需要站在一个长远的角度来设计我们的系统架构。有时候我们接手一个老的应用的时候&#xff0c;会发现由于创建之初没有好好规划系统架构&#xff0c;导致我们后期开分成本和维护成本都非常高。近些年来领域模型的系统设计非常…

Day26:安全开发-PHP应用模版引用Smarty渲染MVC模型数据联动RCE安全

目录 新闻列表 自写模版引用 Smarty模版引用 代码RCE安全测试 思维导图 PHP知识点&#xff1a; 功能&#xff1a;新闻列表&#xff0c;会员中心&#xff0c;资源下载&#xff0c;留言版&#xff0c;后台模块&#xff0c;模版引用&#xff0c;框架开发等 技术&#xff1a;输…

Pygame教程07:键盘常量+键盘事件的2种捕捉方式

------------★Pygame系列教程★------------ Pygame教程01&#xff1a;初识pygame游戏模块 Pygame教程02&#xff1a;图片的加载缩放旋转显示操作 Pygame教程03&#xff1a;文本显示字体加载transform方法 Pygame教程04&#xff1a;draw方法绘制矩形、多边形、圆、椭圆、弧…

【Java探索之旅】数据类型与变量,字面常量,整型变量

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java入门到精通 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、字面常量二、数据类型三、变量3.1 变量概念3.2 语法格式 四、整型变量4.1 整型变…

运维随录实战(13)之docker搭建mysql集群(pxc)

了解 MySQL 集群之前,先看看单节点数据库的弊病 大型互联网程序用户群体庞大,所以架构需要特殊设计。单节点数据库无法满足大并发时性能上的要求。单节点的数据库没有冗余设计,无法满足高可用。单节点 MySQL无法承载巨大的业务量,数据库负载巨大常见 MySQL 集群方案 Re…

.NET高级面试指南专题十六【 装饰器模式介绍,包装对象来包裹原始对象】

装饰器模式&#xff08;Decorator Pattern&#xff09;是一种结构型设计模式&#xff0c;用于动态地给对象添加额外的职责&#xff0c;而不改变其原始类的结构。它允许向对象添加行为&#xff0c;而无需生成子类。 实现原理&#xff1a; 装饰器模式通过创建一个包装对象来包裹原…

云原生之容器编排实践-ruoyi-cloud项目部署到K8S:Nginx1.25.3

背景 前面搭建好了 Kubernetes 集群与私有镜像仓库&#xff0c;终于要进入服务编排的实践环节了。本系列拿 ruoyi-cloud 项目进行练手&#xff0c;按照 MySQL &#xff0c; Nacos &#xff0c; Redis &#xff0c; Nginx &#xff0c; Gateway &#xff0c; Auth &#xff0c;…

DDoS和CC攻击的原理

目前最常见的网络攻击方式就是CC攻击和DDoS攻击这两种&#xff0c;很多互联网企业服务器遭到攻击后接入我们德迅云安全高防时会问到&#xff0c;什么是CC攻击&#xff0c;什么又是DDoS攻击&#xff0c;这两个有什么区别的&#xff0c;其实清楚它们的攻击原理&#xff0c;也就知…

C#,数值计算,用割线法(Secant Method)求方程根的算法与源代码

1 割线法 割线法用于求方程 f(x) 0 的根。它是从根的两个不同估计 x1 和 x2 开始的。这是一个迭代过程&#xff0c;包括对根的线性插值。如果两个中间值之间的差值小于收敛因子&#xff0c;则迭代停止。 亦称弦截法&#xff0c;又称线性插值法.一种迭代法.指用割线近似曲线求…

【JavaScript 漫游】【033】Cookie 总结

文章简介 本篇文章为【JavaScript 漫游】专栏的第 033 篇文章&#xff0c;主要记录了浏览器模型中 Cookie 相关的知识点。 Cookie 概述 Cookie 是服务器保存在浏览器的一小段文本信息&#xff0c;一般大小不能超过4KB。浏览器每次向服务器发出请求&#xff0c;就会自动附上这…

gensim 实现 TF-IDF;textRank 关键词提取

目录 TF-IDF 提取关键词 介绍 代码 textRAnk 提取关键词 这里只写了两种简单的提取方法&#xff0c;不需要理解上下文&#xff0c;如果需要基于一些语义提取关键词用 LDA&#xff1a;TF-IDF&#xff0c;textRank&#xff0c;LSI_LDA 关键词提取-CSDN博客 TF-IDF 提取关键词…

【框架学习 | 第三篇】Spring上篇(Spring入门、核心功能、Spring Bean——>定义、作用域、生命周期、依赖注入)

文章目录 1.Spring简述1.1什么是Spring框架&#xff1f;1.2Spring的核心功能1.2.1 IOC&#xff08;1&#xff09;IOC介绍&#xff08;2&#xff09;控制&#xff1f;反转&#xff1f; 1.2.2 AOP&#xff08;1&#xff09;AOP介绍&#xff08;2&#xff09;专业术语&#xff08;…

BadUsb制作

BadUsb制作 一个树莓派pico kali监听 需要的文件 https://pan.baidu.com/s/1_kyzXIqk9JWHGHstTgq7sQ?pwd6666 1.将pico插入电脑 2.将Bad USB固件中的文件复制到pico中&#xff0c;pico会重启 3.将Bad USB目录文件复制进去&#xff08;打开Bad USB目录文件复制&#xff09; …

Spring Boot单元测试与热部署简析

1 Spring Boot的简介 Spring Boot是一个用于构建独立的、生产级别的Spring应用程序的框架。它简化了Spring应用程序的开发过程&#xff0c;提供了自动配置和默认配置&#xff0c;使得开发者只需专注于业务逻辑的实现&#xff0c;而不用去关注繁琐的配置问题。 Spring …

伪分布Hadoop的安装与部署

1.实训目标 &#xff08;1&#xff09;熟悉掌握使用在Linux下安装JDK。 &#xff08;2&#xff09;熟悉掌握使用在Linux下安装Hadoop。 &#xff08;3&#xff09;熟悉掌握使用配置SSH免密登录。 2.实训环境与软件 环境 版本 说明 Windows 10系统 64位 操作电脑配置 …