7.无代码爬虫八爪鱼采集器软件——采集规则/项目的创建与网址输入

接上篇 6.零代码网页爬虫软件基础实操——下载与安装八爪鱼采集器

八爪鱼免费爬虫软件下载:

八爪鱼采集器下载 小白数据采集神器​​icon-default.png?t=N7T8https://affiliate.bazhuayu.com/retrieve

直接复制粘贴要采集的网站在这里就可以进入采集规则的设计器

自定义任务

通过这个功能,可以进入到网址构建的更高阶使用方法

手动输入

直接填写网址或者复制网址到这个输入框,再点击保存设置即可

文件导入

导入的文件可以是txt、csv、xlsx,最多100万条数据

从任务导入

我们采集到的数据,在相关规则下,所以可以直接从这里导入之前采集到的数据,作为二次采集的起始网址。

批量生成

这个功能可以把有规律的网址,通过批量生成的方式构建出来,例如:网址的page页是有规律的,每一篇文章的数字编号+1,那就直接构建一个参数即可,可以通过测试生成网站来确认构建是否正确,下方“网址预览”中会显示出100条数据供查看。

数字变更

字母变更

时间变更

有一些新闻站上通过日期的方式生成文章/帖子,用这个时间变更的构建方案就很方便

自定义列表

这里可以填写你提前准备好的内容,例如我们做搜索词项目的采集就会常常用到这个功能,提前把词汇放进这里,会自动循环调取这个自定义列表的参数

至此我们如何创建项目输入网址方法就讲完了,下节课我们来进行一个实际案例的操作讲解


教程专栏的目录链接,快速直达各个知识点:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/717323.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

hipcc 编译 amd gpu kernel 和 打包与解包的流程实验

1, hip cuda kernel 编译概观 编译的文件流: .hip kernel --(clang)--> .o .o --(lld)--> .out .out --(clang-offload-bundler)--> .hipfb 2,示例 hipcc -#…

Ubuntu20.04中复现FoundationPose

Ubuntu20.04中复现FoundationPose 文章目录 Ubuntu20.04中复现FoundationPose1.安装cuda和cudnn2.下载相关资源3.环境配置4.运行model-based demo5.运行ycbv demoReference 🚀 非常重要的环境配置 🚀 ubuntu 20.04cuda 11.8.0cudnn v8.9.7python 3.9.19…

windows如何查看硬盘类型(查看磁盘类型)(查看是固态硬盘ssd还是机械硬盘hdd)(Windows优化驱动器——媒体类型)

文章目录 方法:使用Windows优化驱动器1、在任务栏搜索框中输入“优化驱动器”并打开它。2、在优化驱动器的窗口中,查看每个驱动器旁边的“媒体类型”。3、如果列出的是“固态驱动器”,那么它是SSD;如果是“硬盘驱动器”&#xff0…

Python MongoDB 基本操作

本文内容主要为使用Python 对Mongodb数据库的一些基本操作整理。 目录 安装类库 操作实例 引用类库 连接服务器 连接数据库 添加文档 添加单条 批量添加 查询文档 查询所有文档 查询部分文档 使用id查询 统计查询 排序 分页查询 更新文档 update_one方法 upd…

windows系统把桌面的文件重定向到电脑的其他分区盘

当我们使用windows系统的电脑时,很喜欢把一些常用的文件放到桌面上。而桌面上的文件默认都是设定在C盘下的。时间长了,C盘容易爆红(空间不足)。下面我将介绍一种比较简单快捷的办法来解决这种问题--就是把桌面的文件重定向到电脑的其他分区盘。 首先我们…

kafka在windows上的启动

启动zookeeper 解压kafka安装包到对应目录下,找到对应config目录下的zookeeper.properties文件 新建一个data文件夹,随便放哪 打开该文件,找到 dataDir/tmp/zookeeper 属性 将原来的属性值,修改为新建data文件夹地址,…

关于生成式人工智能的发展

近年来,人工智能的发展引起了广泛关注,尤其是在深度学习领域,以深度神经网络为代表的人工智能技术已经取得了重大突破。然而,深度神经网络也有其局限性。深度学习技术在处理一些复杂问题时表现良好,但在解决更广泛的任…

海康视觉算法平台VisionMaster 4.3.0 C# 二次开发01 加载方案并获取结果

前言 第一次使用海康视觉算法平台VisionMaster 4.3.0,项目中要使用这个平台进行视觉处理并获取结果。 运行效果 开发环境 C#, WPF, vs2022, 海康视觉算法平台VisionMaster 4.3.0 基本概念 上图这些.sol为后缀的是vm的方案文件。 打开方案文…

台灯护眼是真的吗?家长挑选台灯看这篇!

中国当前正面临着日益严峻的近视防控挑战。随着各学段学生近视率的普遍偏高,以及高度近视占比的不断上升,这一问题已经对学生的身体健康构成了严重威胁,并对国家的未来发展和社会稳定构成了潜在风险。随着教育资源的日益丰富和普及&#xff0…

俄罗斯方块小游戏(附源码)

游戏展示 一.导包 import turtle import random 二.定义一个Block类 定义一个Block类,用于表示游戏中的方块,包含颜色和形状。 class Block:def __init__(self, color, tiles):self.color colorself.tiles tiles三.定义了7个不同的Block对象 定义了7…

散户必须知道!个股场外期权期限是什么?

今天带你了解散户必须知道!个股场外期权期限是什么?场外个股期权是一种交易双方买卖未来某个时间以某个价格购买或卖出某种资产的权力,允许投资者以相对较小的期权费用获得名义本金,以获取更高的回报。 个股场外期权期限是什么&am…

MySQL之优化服务器设置(六)

操作系统状态 操作系统会提供一些帮助发现操作系统和硬件正在做什么的工具。其中包括最常用的工具iostat和vmstat。如果系统不能提供它们中的任何一个,有可能提供了相似的替代品。当然目的不是让大家熟练使用iostat和vmstat,而是告诉大家用类似的工具诊…

css布局方式汇总

css布局解决方案 文章目录 css布局解决方案水平居中布局1. text-algin:center使用场景原理优点与缺点 2. margin:0 auto原理优点和缺点 3. inline-blocktext-align属性配合使用原理优点和缺点 4. table配合margin属性使用原理优点和缺点 5. absolutetransform属性的translateX原…

周跳的探测及修复

前言: 本章节代码均在Gitee中开源: 导航工程: 导航工程及其有关的所有项目 - Gitee.comhttps://gitee.com/Ehundred/navigation-engineering/tree/master/%E5%8D%AB%E6%98%9F%E5%AF%BC%E8%88%AA%E5%8E%9F%E7%90%86/%E5%91%A8%E8%B7%B3%E6%8E%A2%E6%B5%…

Excel批量一列转多列多行

你在公司或学校是否遇到过对人员进行分组,你是否曾一个一个复制粘贴,如只有100人,尚有时间一一分组,如1000人,甚至更多,不知分到“地老天荒”是否可以完成! 今天刘小生分享一个方法“用替换等号…

OZON爆款新品推荐丨OZON珠宝首饰好款推荐

在OZON平台上,珠宝首饰一直以其独特的魅力和精致的工艺吸引着广大消费者。以下是几款推荐的OZON珠宝首饰好款: Top1 隐形树藤项链 MARIOLA Ювелирное колье серебро 925 леска невидимка женское сере…

一个示例学习C语言到汇编层面

给出以下代码 #include<stdio.h> int main() {int x 0, y 0, z 0;while (1) {x 0;y 1;do {printf("%d\n", x);z x y;x y;y z;} while (x < 255);}return 0; }我们把这个程序编写成32位程序&#xff0c;然后我们放入IDA中进行分析 .text:0080187…

DAY04 HTMLCSS

文章目录 一 表单(1) 数字控件(2) 颜色控件(3) 日期控件(4) 月份控件(5) 星期控件(6) 搜索控件(7) 范围控件 二 浮动框架三 结构化标签四 CSS1 CSS概述2 CSS的编写位置1. inline style 行内样式2. inner style 内部样式3. outer style 外部样式4. 小结 3 CSS选择器1. 通用选择器…

OSPF 动态路由协议(思科、华为)

#交换设备 OSPF 动态路由协议 一、基本概念 1.中文翻译&#xff1a;开放式最短路径优先路由协议&#xff08;open shortest path first&#xff09;&#xff0c;是一个内部网关路由协议&#xff08;一个自治系统内&#xff09;2.也称为&#xff1a;链路状态路由协议&#xf…

【操作系统原理】三级项目-基于并行计算的的单词统计

前言 这是当时选修《操作系统原理》时需要做的一个实验项目&#xff0c;也是三级项目&#xff0c;选题选的是第二章有关并行计算的实验&#xff0c;这个项目有匿名版的PPT和视频&#xff0c;可以私我&#xff0c;发送“基于并行计算的的单词统计”即可获取整个项目的压缩包。 …