爬虫入门教程(一)

爬虫入门教程

1.什么是爬虫

爬虫是一种自动获取网站数据的程序或脚本。它可以自动模拟人类访问网站,获取网页源代码,解析并提取出所需的数据

爬虫的工作原理类似于搜索引擎的索引程序,它们会按照预定的规则和算法在互联网上不断地爬取网页,收集信息并建立索引,以便用户可以通过搜索引擎来查找并获取所需的信息。

爬虫通常会从一个起始网址开始,然后根据超链接逐步地遍历整个网站或整个互联网。它们会访问网页的内容,抓取文本、图片、视频等数据,并对这些数据进行处理和分析。爬虫可以用于各种目的,如搜索引擎优化、数据挖掘、信息收集、监控等。

2.爬虫基础知识

在学习爬虫前,需要掌握以下基础知识:

2.1URL

URL是统一资源定位符(Uniform Resource Locator)的缩写,它是互联网上用于标识和定位资源(如网页、图片、视频等)的地址。URL通常由几个部分组成,包括协议、主机名、路径和可选的查询参数和片段标识符。

一个典型的URL的格式如下:

协议://主机名/路径?查询参数#片段标识符

(1)协议(Protocol):指定了访问资源所需的协议,常见的协议有HTTP、HTTPS、FTP、SMTP等。
(2)主机名(Host):标识了资源所在的主机或服务器的域名或IP地址。
(3)路径(Path):指定了服务器上资源的具体位置,用来定位资源在服务器上的存储位置。
(4)查询参数(Query Parameters):可选部分,用来传递额外的参数给服务器,通常以键值对的形式存在,多个参数之间用&符号分隔。
(5)片段标识符(Fragment Identifier):可选部分,用来指定资源中的特定部分,例如网页内的锚点。

举例来说,下面是一个典型的URL:

https://www.example.com/blog/article?id=123#section2

协议: HTTPS
主机名: www.example.com
路径是:/blog/article
查询参数: id=123
片段标识符:section2

通过URL,用户可以方便地访问互联网上的各种资源,浏览网页、下载文件、观看视频等。网络爬虫也是通过解析URL来访问网页并提取数据的。

2.2HTTP协议

HTTP(HyperText Transfer Protocol)是一种用于传输超文本数据(如 HTML)的应用层协议,是万维网的数据通信基础。HTTP是无状态的协议,即每个请求都是独立的,服务器不会维护关于客户端的状态信息。
HTTP通信过程:
在这里插入图片描述
HTTP请求由以下几部分组成:

(1)请求行:包括请求方法(GET、POST等)、请求的URL和协议版本。
(2)请求头部:包含关于请求的附加信息,如Accept、User-Agent等。
(3)请求主体:可选部分,在POST请求中包含提交的数据。

HTTP响应由以下几部分组成:

(1)状态行:包括协议版本、状态码和状态消息。
(2)响应头部:包含响应的附加信息,如Content-Type、Content-Length等。
(3)响应主体和空行:包含实际返回的数据。

2.3HTML/XML

大多数网站使用HTML作为展示内容的标记语言。解析HTML可以提取出页面文本、链接和其他有用信息。XML也是一种常见的结构化数据表示形式。

(1)标签和元素:了解HTML和XML的标签结构以及如何定义元素。
(2)属性:了解标签中的属性以及如何提取和利用这些属性。
(3)文本和注释:理解如何处理文本内容和注释。
(4)嵌套结构:了解标签如何嵌套以构建文档结构。

2.4其他

其他相关知识,比如正则表达式、Json格式处理、JS渲染页面解析、数据库存储等。同时不同国家和地区对互联网数据收集有不同的法律法规。编写爬虫时必须遵守相关法律,避免侵犯他人权益。

3.爬虫流程

一般爬虫开发包含以下步骤:

  1. 确定需求和目标
  2. 分析目标网站结构
  3. 编写爬虫代码
  4. 测试和运行爬虫
  5. 存储和后处理数据
  6. 部署上线和维护

3.1确定需求和目标

明确需要采集哪些网站的哪些数据,以及数据将用于什么目的。这一步决定了爬虫的开发重点和复杂程度。例如爬取网址https://qq.yh31.com/zjbq/的图片
在这里插入图片描述

3.2分析目标网站结构

分析待采集网站的URL路径设计、链接结构、反爬虫策略等,为编写高效稳定的爬虫代码做准备。可用开发者工具等方式辅助分析。

3.3编写爬虫代码

根据需求和分析结果,选择Python、Java等编程语言,结合第三方网络库如Requests等,编写完成各模块的爬虫代码,包括:

  • 链接提取
  • 网页下载
  • 内容解析
  • 数据存储
  • 调度控制

示例代码:

import re
import requests
import os

# 网站URL
url = "https://qq.yh31.com/zjbq/"

# 发送请求获取网页HTML代码
response = requests.get(url)
html_content = response.content.decode("utf-8")

# 使用正则表达式匹配所有JPG图片链接
pattern = r'<img\s+src="(http[s]?://[^"]+\.jpg)"'
image_urls = re.findall(pattern, html_content)

# 创建文件夹用于存储下载的图片
folder_name = "downloaded_images"
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

# 下载图片并保存到本地
for i, image_url in enumerate(image_urls, start=1):
    try:
        response = requests.get(image_url)
        image_data = response.content

        # 构造图片文件名
        image_name = f"{folder_name}/image_{i}.jpg"

        # 保存图片到本地
        with open(image_name, "wb") as file:
            file.write(image_data)
        print(f"Downloaded {image_url} as {image_name}")
    except Exception as e:
        print(f"Error downloading {image_url}: {e}")

print("Download completed.")

3.4测试和运行爬虫

编写完爬虫代码后,先在测试环境中运行检查是否正常工作。如果运行正常无误,可以部署在更大规模的环境下长期运行采集数据。在这里插入图片描述
在这里插入图片描述

3.5存储和后处理数据

采集的数据需要存储并进行必要的后处理,以满足不同的使用需求。可存储为文本文件、数据库等多种格式。后处理包括数据清洗、格式化等步骤。

3.6部署上线和维护

对于长期自动运行的大规模爬虫系统,需要做好容灾、负载均衡、代理IP池等工作,保证稳定高效运行。同时监控和分析日志,持续改进和优化爬虫,维护其健壮性和可扩展性。

4.爬虫库和框架

为了方便快速构建爬虫程序,开发者贡献了诸多优秀的第三方库和框架,大大提高了爬虫开发效率。

常见的Python爬虫库和框架包括:

  • Requests: 功能强大的网络请求库
  • Scrapy: 由Scrapy团队维护的爬虫框架
  • PySpider: 支持分布式的爬虫框架
  • Selenium: 自动控制浏览器的工具
  • PyQuery: 方便解析HTML的库

5.反爬虫策略

网站为了防止被恶意爬虫扫描,采取了各种反爬虫策略,主要包括:

  • 用户识别
  • 限制访问频率
  • IP黑名单和白名单
    -验证码机制
  • Javascript指纹检测
  • 蜜罐链接陷阱

爬虫开发者需要针对不同策略制定相应的应对措施,如设置随机User Agent、使用代理IP池、极验验证码破解等,让爬虫更加人性化,避免被服务器拦截或封杀。

总结

这是一个大致的爬取教程,后续的文章将为大家详细讲解爬虫的知识以及具体的操作。在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/528304.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mysql 查询变量@i:=@i+1

学习完mysql的查询&#xff1a;基本查询&#xff0c;连接查询和子查询和mysql 正则表达式查询&#xff0c;接下来先学习下变量查询。 mysql中没有oracle序列号那一列。mysql可以使用查询变量的方式去处理。我们先了解下查询变量&#xff0c;后面应用起来就更清晰。 1&#xff0…

盘点那些好用的SAP FIORI App (五)-管理银行账户

SAP的ECC系统里面&#xff0c;House Bank银行账户的维护是在GUI通过T-Code FI12进行创建修改的&#xff0c;但是升级到S4 HANA以后&#xff0c;FI12的创建维护功能已经取消&#xff0c;所有的house bank account,都要通过这个FIORI App 维护。 App ID 如下 银行账户创建 点击…

【Linux 命令】内核、驱动调试手段总结

文章目录 1. printk2. strace3. Itrace4. ptrace5. ftrace6. 动态打印7. perf8. devmem9. demsg参考&#xff1a; 1. printk **printk()**是 Linux 内核中最广为人知的函数之一。它是我们打印消息的标准工具&#xff0c;通常也是追踪和调试的最基本方法。 虽然 printk() 是基…

Stable diffusion 初学者指南

1. Stable diffusion 初学者指南 想掌握Stable Diffusion AI技术吗&#xff1f; 这份初学者指南专为完全没接触过Stable Diffusion或任何AI图像生成器的新手设计。跟随本指南&#xff0c;你将了解Stable Diffusion的基本情况&#xff0c;并获得一些实用的入门技巧。 什么是S…

JavaWeb流行框架(代码案例)

Struts2基础 通过Struts2将请求转发到指定JSP页面 <% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://w…

Codeforces Round 938 (Div. 3) (A~E)

Codeforces Round 938 (Div. 3) (A~E) 目录&#xff1a;A B C D E A题&#xff1a;Yogurt Sale 标签: 数学&#xff08;math&#xff09; 题目大意 酸奶价格&#xff0c; a 元一份&#xff0c;b元两份n问&#xff1a;买n份最少多少钱 思路 a元一份&#xff0c;b元两份&#…

js获取上周本周下周的日期(附Demo)

目录 前言1. 基本知识2. Demo3. 彩蛋 前言 现在的时间点是&#xff1a;2024-04-08&#xff0c;对应的日期如下&#xff08;上周、这周、下周&#xff09; 1. 基本知识 讲述Demo之前&#xff0c;先补充一些基础知识 JavaScript 中的 Date 对象是用于处理日期和时间的对象。它…

【ensp】VLAN间通信的解决办法

VLAN间通信简介 VLAN间三层通信是指在VLAN网络中&#xff0c;不同VLAN之间进行通信的过程。 我们知道VLAN是虚拟局域网&#xff0c;在一个局域网内我们是通过Mac地址进行通信&#xff0c;在局域网与局域网之间通过IP地址来通信&#xff0c;大致过程如下&#xff1a; 主机在发…

【SERVERLESS】搭建ServerLess服务

目录 一、前言 二、什么是ServerLess? 三、ServerLess技术选型 四、ServerLess基础服务搭建 Mac安装示例&#xff1a; Windows安装说明&#xff1a; 五、生成ServerLess应用 六、ServerLess部署 验证并访问函数应用 七、ServerLess进阶演示 八、ServerLess最后总结 …

芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点

💡本篇内容:【芒果YOLOv8改进ATSS标签分配策略|第三集】芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点 💡🚀🚀🚀本博客 标签分配策略ATSS改进+ 新颖高效AsDDet检测头组合改进,适用于 YOLOv8 …

免费ai写作软件有哪些?分享10个给你 #媒体#学习#媒体

你是否因为写作困顿而感到沮丧&#xff1f;是不是希望能够找到一个能给你提供无限灵感和提高创作效率的利器&#xff1f;AI写作助手就是你的绝佳选择&#xff01;现在我向大家推荐几款好用的AI写作助手&#xff0c;它们将让你的创作之旅更加流畅、富有创意。 1.飞鸟写作 这是…

超详细解读Transformer框架

Transformer是由谷歌大脑2017年在论文《Attention is All You Need》中提出的一种序列到序列(Seq2Seq)模型。自提出伊始&#xff0c;该模型便在NLP和CV界大杀四方&#xff0c;多次达到SOTA效果。NLP领域中&#xff0c;我们所熟知的BERT和GPT就是从Transformer中衍生出来的预训练…

【云计算】云网络产品体系概述

云网络产品体系概述 在介绍云网络产品体系前&#xff0c;先介绍几个与云计算相关的基础概念。 阿里云在基础设施层面分为 地域 和 可用区 两层&#xff0c;关系如下图所示。在一个地域内有多个可用区&#xff0c;每个地域完全独立&#xff0c;每个可用区完全隔离&#xff0c;同…

咸鱼之王_手游_开服搭建架设_内购修复无bug运营版

视频演示 咸鱼之王_手游_开服 游戏管理后台界面 源码获取在文章末尾 源码获取在文章末尾 源码获取在文章末尾 或者直接下面 https://githubs.xyz/y28.html 1.安装宝塔 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh &…

Leetcode C语言习题

Leetcode习题27&#xff1a;移除元素 题目&#xff1a; 说明&#xff1a; 示例&#xff1a; 题解&#xff1a; 方法一&#xff1a;&#xff08;开辟额外的数组空间&#xff09; 我们可以创建一个新的数组&#xff0c;然后用循环来遍历原数组&#xff0c;将原数组中不为 val…

29.WEB渗透测试-数据传输与加解密(3)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;28.WEB渗透测试-数据传输与加解密&#xff08;2&#xff09; md5解密网站&#xff1a;ht…

SpringMVC数据接收(全面/详细注释)

SpringMVC涉及组件&#xff1a; DispatcherServlet : SpringMVC提供&#xff0c;我们需要使用web.xml配置使其生效&#xff0c;它是整个流程处理的核心&#xff0c;所有请求都经过它的处理和分发&#xff01;[ CEO ]HandlerMapping : SpringMVC提供&#xff0c;我们需要进行…

高创新 | [24年新算法]NRBO-XGBoost回归+交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测

高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测 目录 高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现 [24年新算…

实现 jwt 鉴权- SpringBoot + 微服务

目录 项目结构 主要步骤 auth-service里&#xff1a; 1. 配置 pom.xml 依赖 2. 实现HandlerInterceptor 接口的 preHandle 函数 3. 实现 WebMvcConfigurer 的 addInterceptors 接口 4. 生成 token 和验证 token 5. 登录接口示例 user-service 里&#xff1a; 6. 实现拦…

Netty NioEventLoop详解

文章目录 前言类图主要功能NioEventLoop如何实现事件循环NioEventLoop如何处理多路复用Netty如何管理Channel和Selector管理Channel管理Selector注意事项 前言 Netty通过事件循环机制(EventLoop)处理IO事件和异步任务&#xff0c;简单来说&#xff0c;就是通过一个死循环&…