10.无代码爬虫软件做网页数据抓取流程——工作流程设置与数据预览

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子:https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载链接:
1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]https://affiliate.bazhuayu.com/retrieve

通过前面的学习,我们已经进入到设计采集规则的实操课程。下面以一个实际案例来解答今天的课程要点:

工作流程设置

我们来采集西瓜视频的视频标题、播放数、发布者昵称、发布者主页链接、发布时间作为实例解读

602f64ba447c41c2b7d454c8fc7aab9a.png

我在之前的一个视频直播课中有说过一个观点,设计规则就那么三板斧:翻页(滚屏)、循环、数据提取,

翻页(滚屏)

08514a5a2d32428daa38d8e8afb747a6.png

 

列表循环

4a5b5e409e6a45a3a16eadd6e1675e09.png

添加循环,如果是通过点击操作,就可以通过点击标题文字,在添加“选中全部相似元素”,这个时候会构建一个循环和数据提取的模块。

9abf276cc85047afb738f53e932c6724.png

在循环模块的预览小图标中点击一下,可以看到预览的文字数据,如果是我们想要的信息,就匹配争取了

数据提取

4f97393bdfc8439ea6c29dc07fa26508.png

首先要分析自己要点数据是在这个循环里面,还是不在,如果在就勾选“采集当前循环中设置的元素”,不是则不勾选。

双击数据预览窗口的字段表头,可修改字段名称,这里修改的就是导出的表格文件的表头。

 

数据预览

数据预览有三种形态,

第一种是采集规则设计的时候设计器里面的数据预览

第二种,是采集规则运行时候显示网页和数据字段采集的预览

第三种,是采集规则采集到结果的大界面数据预览

670b9df23d3e4ad898d9f2943d2f6f3e.png

0bc4a745edf841908600611de80705f2.png

499ba8e001b045009375ee8f7019d41c.png

第一种可以理解为设计器里面的预览,这还不一定是采集器执行时候能够采集到的数据,是无法导出的数据。

第二三中,就是采集器运行后,执行采集动作可以采集到的数据信息,这个信息是可以导出到表格存在电脑里的。

7d3964249f724f7fb2e041b2c835f502.png

打开我们导出的本地文档,就可以看到我们最终导出的数据到底是什么样的,如果有乱码或错误,就需要在界面中修改元素定位的xpath或者整个采集流程的结构。

 

做个总结,这篇教程讲的工作流程设置的三板斧,翻页、循环、数据提取,还介绍了数据预览的三种情况。下一节课我们说说:如何选择目标网站


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

d8990e45f96d4ec6aa71d2ae234e2b92.png

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/718132.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LLaMA Factory多卡微调的实战教程(持续更新)

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

利用Python语言调用讯飞星火认知大模型接口实战指南

什么是API接口 API(应用程序编程接口)是一组规则,允许不同的软件系统相互通信。通过API,开发者可以访问外部系统的功能和数据,而无需了解其内部实现。 API接口就像一座桥梁,连接应用程序和服务。例如&…

自动化产线设备联网,协同打造5G智慧工厂

1、需求背景 随着信息技术、物联网、人工智能等领域的飞速发展,智慧工厂成为制造业升级和转型的关键方向。在智慧工厂中,产线设备之间的实时通信和协同操作可以提高整个生产流程的自动化水平。 提升生产效率 通过稳定的网络连接,保证设备之…

Python工具箱系列(五十三)

​​水印 水印是一种常见的图片处理需求。当既需要展示,又需要保护知识产权时,就需要使用文字或者图片来打水印。下面的代码展示了文字水印与图片水印的过程。 ​--javascripttypescriptbashsqljsonhtmlcssccppjavarubypythongorustmarkdown from pat…

MySQL数据库初识

目录 一.数据库相关概述 1.数据库概念 数据(Data) 表 数据库(database) 数据库管理系统(DBMS) 数据库系统 2.数据库系统发展史 3.数据库分类 3.1.关系数据库 3.2.非关系型数据库 二.MySQL数据库…

vue分页

先看效果 再看代码 <!-- 分页 --><div v-if"pageParams.pageCount > 1" class"flex justify-end mt-6"><n-paginationv-model:page"pageParams.page" v-model:page-size"pageParams.pageSize" :page-count"pa…

【代码随想录】【算法训练营】【第41天】 [416]分割等和子集

前言 思路及算法思维&#xff0c;指路 代码随想录。 题目来自 LeetCode。 day 40&#xff0c;休息&#xff0c;休息一下~ day 41&#xff0c;艰难的周一~ 题目详情 [416] 分割等和子集 题目描述 416 分割等和子集 解题思路 前提&#xff1a;是否可以将数组分为和相等的…

android中的JNI的DEMO

一&#xff1a;源代码 native-lib.cpp #include "native-lib.h"JNIEXPORT jint JNICALL Java_com_example_jnidemo_MainActivity_add(JNIEnv* env, jobject, jint a, jint b) {return a b; }JNIEXPORT jint JNICALL Java_com_example_jnidemo_MainActivity_subtra…

DBeaver连接数据库

1、空白处右键点击 2、创建-连接 3、选择不同的数据库 4、修改信息 (mac)双击&#xff0c;连接&#xff0c;根据自己的需求重命名

VBA学习(2):Excel VBA初学者编写第一个宏

要在Excel中编写宏程序&#xff0c;首先需要了解VBA语言&#xff0c;而快速入门的技巧就是使用宏录制器。 宏录制器就像一台录音机&#xff0c;可以使用VBA监听和记录你在Excel中所做的一切操作。对于初学者来说&#xff0c;你可能不了解VBA&#xff0c;这里&#xff0c;我们会…

抖音用户新作品监控助手,第一时间获取博主作品信息。

声明&#xff1a; 本文以教学为基准、本文提供的可操作性不得用于任何商业用途和违法违规场景。本人对任何原因在使用本人中提供的代码和策略时可能对用户自己或他人造成的任何形式的损失和伤害不承担责任。包含关注&#xff0c;点赞等 抖音新作品监控助手系统是一个功能强大的…

ChatGPT-4o赋能科研:自然科学研究的新篇章

自然科学研究遵循严谨的科学方法论&#xff0c;包括文献调研、问题综述、试验设计、提出假设、数据清洗、统计诊断、大数据分析、经典统计模型&#xff08;回归模型、混合效应模型、结构方程模型、Meta分析模型&#xff09;、参数优化、机器/深度学习、大尺度模型构建与模拟、论…

持PMP证书可以免考申请CSPM-2国标证书!

一提到项目管理的专业认证&#xff0c;大家首先想到的肯定是以PMP为核心的PMI体系认证。当然也有BSI和IPMP等其他体系认证&#xff0c;但都是从国外引进的专业认证&#xff0c;我国始终缺少符合中国特色项目管理环境下的项目管理专业认证体系。 如今&#xff0c;更符合中国国情…

单细胞|RNA-seq ATAC-seq 联合分析

引言 本文[1]将介绍如何利用Signac和Seurat这两个工具&#xff0c;对一个同时记录了DNA可接触性和基因表达的单细胞数据集进行综合分析。我们将以一个公开的10x Genomics Multiome数据集为例&#xff0c;该数据集针对的是人体的外周血单核细胞。 数据准备 library(Signac)libra…

八股文之JVM

目录 1.JVM内存划分 2.JVM类加载过程 3.JVM垃圾回收机制GC 3.1.判断谁是垃圾 3.2.如何释放对应的内存 1.JVM内存划分 在一个Java程序运行起来之后&#xff0c;jvm就会从操作系统中申请一块内存&#xff0c;然后就会将该内存划分成多个部分&#xff0c;用于不同的用途。 …

【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字

我们在许多其他平台看到过OCR功能的应用&#xff0c;那么HarmonyOS在这方面的支持如何呢&#xff1f;我们如何能快速使用这一能力呢&#xff1f;使用这一能力需要注意的点有哪些呢&#xff1f;就让我们一起来探究吧~ 【开发环境】 版本规则号&#xff1a;HarmonyOS NEXT版本类…

闭包表(Closure Table)

设计血缘关系&#xff08;data-lineage&#xff09;时&#xff0c;想到要使用的表模型。 表设计 节点记录表 - node CREATE TABLE lineages_node (name varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT 节点名称,id bigint(20) unsigned NOT NULL AUTO_INCREM…

python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library&#xff0c;即Python图像处理库&#xff0c;是一个在Python中用于处理图像的非常流行的库。 一、PIL介绍 这个库提供了广泛的文件格式支持、高效的内部表示以及相当强大的图像处理功能。 核心图像库旨在快速访问存储在几种基本像素格式中的数…

C#特性-CallerMemberName、CallerFilePath和CallerLineNumber的介绍和应用

介绍 在csharp中&#xff0c;CallerMemberName, CallerFilePath, 和 CallerLineNumber 是编译时常量&#xff0c;它们是csharp 5.0引入的特性&#xff0c;用于提供有关调用堆栈的信息&#xff0c;通常用于日志记录和调试。这些特性可以自动填充方法的参数&#xff0c;无需显式…

基于SpringBoot校园食堂订餐管理系统

文章目录 系统运行图概要整体架构流程技术名词解释 系统运行图 概要 随着校园人口的增加和生活节奏的加快&#xff0c;校园食堂的订餐管理面临着诸多挑战&#xff0c;传统的人工点餐方式已经不能满足日益增长的需求和期望。因此&#xff0c;本论文旨在设计和实现一种基于Java的…