一:对爬虫的简单认识

一:爬虫前导知识

1.爬虫引入:

​ 网络爬虫又称为网络蜘蛛;网络蚂蚁;网络机器人等,可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息,在浏览信息的时候需要按照我们制定的规则进行,而这些规则就是网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索,也就是代替人去模拟浏览器进行网页操作

​ 网络爬虫分为通用网络爬虫聚焦网络爬虫

(1)通用网络爬虫:

​ 用做搜索引擎,获取一些高质量网页

(2)聚焦网络爬虫:

​ 获取某一垂直领域的数据或者有明确的检索需求,并过滤掉无用的信息

2.Python做爬虫的优势:
  • PHP:对多线程;异步支持不太好
  • Java:代码量大;代码笨重
  • C/C++:代码量大;难以编写
  • Python:支持模块多;代码简洁;开发效率高(scrapy框架)
3.爬虫的合法性:

​ 爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。建议熟读《网络安全法》;并参考《刑法》第72条,第253条,第285条;且遵守Robots协议

4.httphttps协议:

httphttps

http – 不安全;https – 安全
https = http + ssl
ssl:安全认证证书
网址(url):全球统一资源管理定位器,用来定位的

写爬虫的第一步就是找到数据接口 – 当前数据存在的url,也就是网址
在这里插入图片描述
​ (1)什么是协议:

​ 网络协议是计算机之间为了实现网络通信而达成的一种 “约定” 或者 “规则” ,有了这种约定,不同厂商的生产设备,以及不同操作系统组成的计算机之间,就可以实现通信

​ (2)HTTP(Hyper Text Transfer Protocol)协议:

​ 是超文本传输协议的缩写;是从Web服务器传输超文本标记语言(HTML)到本地浏览器的传送协议。设计HTTP最初的目的就是为了提供一种发布和接收HTML页面的方法

HTTP有多个版本,目前广泛使用的是HTTP1.1版本,有些网站运用的是HTTP2.0版本,因为版本的不同,所以可能会导致发包异常

​ (3)HTTP原理(了解):

HTTP是一种基于TCP/IP通信协议来传递数据的协议,传输的数据类型为HTML文件;图片文件;查询结果等

HTTP协议一般用于B/S架构(浏览器/服务器结构)。浏览器作为HTTP客户端通过URLHTTP服务端即Web服务器发送所有请求

​ (4)HTTP特点(了解):

  • HTTP协议支持客户端/服务端模式,也是一种请求/响应模式的协议
  • ​ 简单快速:客户向服务器请求服务时,只需传送请求方法和路径,请求方法常用的有GETHEADPOST
  • ​ 灵活:HTTP允许传输任意类型的数据对象,传输的类型由Content-Type加以标记
  • ​ 无连接:限制每次连接只处理一个请求。服务器处理完请求,并收到客户的应答后,即断开连接,但是却不利于客户端与服务器保持会话连接,为了弥补这种不足,产生了两项记录HTTP状态的技术,一个叫做Cookie;一个叫做Session
  • ​ 无状态:无状态是指协议对于事物处理没有记忆,后续处理需要前面的信息,则必须重传

(5)HTTP的请求与响应:

HTTP通信由两部分组成:客户端请求信息;服务器响应信息

示例:

在这里插入图片描述
​ 1.当用户在浏览器的地址栏中输入一个URL https://www.baidu.com/ 并按回车键后,浏览器会向HTTP服务器发送HTTP请求,HTTP请求主要分为 GetPost 两种方法

​ 2.当我们在浏览器输入URL https://www.baidu.com/ 的时候,浏览器会发送一个Request请求去获取这个URL https://www.baidu.com/ 的html文件,服务器把Response文件对象发送回浏览器(客户端)

​ 3.浏览器分析Response中的HTML,发现其中引用了很多其它文件,比如images文件;CSS文件;JS文件,浏览器会自动的再次发送Request去获取images文件;CSS文件;JS文件 —— 下载的过程

​ 4.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来

(6)HTTP的报文组成:

HTTP报文大致分为报文首部报文主体两块,中间用空行来划分。通常不一定会有报文主体

​ 报文首部:包含服务器或客户端需处理的请求或响应的内容及属性

​ 报文主体:应该被发送的数据

​ (7)什么是HTTPS?

https = http + sslhttps就是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的

https是以安全为目标的HTTP通道,简单来讲就是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础就是SSL

注意: SSL也是一个协议,主要用于Web的安全传输协议

​ (8)HTTPSHTTP的区别与总结(了解):

一般http中存在如下问题:

  • 请求信息明文传输,容易被窃听截取。
  • 数据的完整性未校验,容易被篡改
  • 没有验证对方身份,存在冒充危险

HTTPS的缺点

  • HTTPS协议多次握手,导致页面的加载时间延长近50%;
  • HTTPS连接缓存不如HTTP高效,会增加数据开销和功耗;
  • 申请SSL证书需要钱,功能越强大的证书费用越高。
  • SSL涉及到的安全算法会消耗 CPU 资源,对服务器资源消耗较大。

总结

  • HTTPSHTTP协议的安全版本,HTTP协议的数据传输是明文的,是不安全的,HTTPS使用了SSL/TLS协议进行了加密处理。
  • httphttps使用连接方式不同,默认端口也不一样,http是80,https是443。
5.抓包工具的使用:

如何抓包:以抓取百度首页的包为例:

注意: 尽量不要把英文换成中文,因为在找资料的过程中,通过中文搜索有时会搜索不到

​ (1)鼠标右键网页然后点击检查 / 按F12 / 按Fn + F12 – 打开抓包工具框

注意: 不要弄错,是点击检查,不是网页源代码,网页源代码是查看当前页面的组成代码数据

​ (2)点击 Network – 抓包;Network 是网络工作区,里面有非常多的包
​ (3)把 Preserve log(日志信息) 和 Disable cache(禁用缓存) 勾选上,避免有些包抓不到
​ (4)点击刷新页面 / CTRL + R – 刷新页面让它发包
​ (5)点击百度的包 www.baidu.com 再点击 Headers(标头)
Headers 里面有 General(通用的);Response Headers(响应头);Request Headers(请求头)。先请求再响应,只有发出了正常的请求头才会得到正确的响应;所以目前主要关注 Request Headers 就可以
​ 发出请求: 1.携带URL;URL可以在 General 中查看
​ 2.请求参数;在 Request Headers 中查看
​ 因为服务器会做校验,而校验的内容全是 Request Headers(请求头),当你不知道要校验的具体参数时,就将请求头里面的内容全部复制下来,这样做不会出现任何的问题;但在有反爬的情况下,它里面的有些参数会是动态的,这个时候,在发出请求的过程中,如果不能找到那个动态的参数,这样做就没有任何的意义了

图片解析:

在这里插入图片描述
在这里插入图片描述

示例代码:爬取百度首页源代码:

#导入网络请求模块;因为这是第三方模块,并不是内库,所以需要去安装 -- 通过 win + R 输入cmd 打开终端,输入 pip install requests 安装
import requests 

#目标网址
url = 'http://www.baidu.com' 

#添加请求头信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'} 

#发送请求:1.携带url 2.携带请求头信息
response = requests.get(url,headers=headers)

#将得到的响应数据指定为可读的格式编码
response.encoding = 'utf-8' 

#获取到响应内容
html = response.text 

#打印响应数据
print(html) 

#CTRL+F检索,查找具体数据
6.一些零碎的知识:

(1)反反爬的第一步(了解):Request Headers(请求头)里的 User-Agent(用户代理)

User-Agent:客户端程序的信息,就是我发送请求的浏览器信息

​ 我们的爬虫程序的目的:模拟我们的浏览器向我们的服务器要数据

​ 在发请求的过程中,我们需携带请求头,而这个 User-Agent 是第一步,要让它认为我们是一个浏览器去访问的服务器,而不是我们的爬虫程序去访问的服务器,因为如果是爬虫程序访问的服务器,它会在前面显示 Python-Request,它会认为我们是一个自动化爬虫的请求,服务器一旦检测出来 User-Agent:Python-Request,那么服务器就不会给我们校验通过,这个时候我们需要模拟携带上我们自带的电脑上的 User-Agent(这个 User-Agent 直接复制就可以了)
注意: 无论要写什么样的爬虫程序 User-Agent 都是我们必须要携带的东西

Response Headers(响应头)里的 Set-Cookie:判断我们的Cookie它是本地生成的,还是服务器生成的(了解)

在这里插入图片描述

(2)认识url

URLUniform Resource Locator),中文叫统一资源管理定位器,是用来标识某一处资源的地址,即是我们常说的网址,在发送http请求时,通过URL对网络资源进行定位
在这里插入图片描述
(3)常见的请求方法:

  • GET:请求指定的页面信息,并返回实体主体

  • POST:向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中,POST请求可能会导致新的资源的建立和/或已有资源的修改

  • HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头

  • PUT:从客户端向服务器传送的数据取代指定的文档的内容

  • DELETE:请求服务器删除指定的页面

    注意: GET请求和 POST请求是用的最多的,其它的很少用到

(4)响应状态码:

​ 访问一个网页时,浏览器会向web服务器发出请求。此网页所在的服务器会返回一个包含HTTP状态码的信息头用以响应浏览器的请求

状态码的分类:

  • 1XX – 信息型,服务器收到请求,需要请求者继续操作

  • 2XX – 成功型,请求成功收到,理解并处理

  • 3XX – 重定向,需要进一步的操作以完成请求

  • 4XX – 客户端错误,请求包含语法错误或无法完成请求

  • 5XX – 服务器错误,服务器在处理请求的过程中发生了错误

    常见的状态码

  • 200 OK – 客户端请求成功

  • 301 – 资源(网页等)被永久转移到其它URL

  • 302 – 临时跳转

  • 400 Bad Request – 客户端请求有语法错误,不能被服务器所理解

  • 401 Unauthorized – 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用

  • 404 – 请求资源不存在,可能是输入了错误的URL

  • 500 – 服务器内部发生了不可预期的错误

  • 503 Server Unavailable – 服务器当前不能处理客户端的请求,一段时间后可能恢复正常

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/222283.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

打开率高的开发信主题?邮件的标题怎么写?

如何写高点击率的开发信主题?推荐的邮件标题模板? 一封高效的开发信可以是你争取客户的第一步。但是,要让你的邮件在收件人的收件箱中引起关注并被打开,你需要选择一个吸引人的主题。蜂邮将介绍一些打开率高的开发信主题&#xf…

tensorflow模型的加载及保存,以及在C++端的部署

一、模型保存和加载 参考文章:TensorFlow2.0 —— 模型保存与加载 方法一、 仅保存模型权重(model.save_weights) 有两种保存模型权重的方法,一种是保存.h5形式。model.save_weights("adasd.h5") # 模型权重保存 model.load_weights("adasd.h5") # 模型…

数组划分问题

文章目录 移动零 移动零 class Solution { public: void moveZeroes(vector<int>& nums) {int dest -1;int cur 0;while(cur < nums.size()){if (nums[cur] ! 0){dest;swap(nums[cur], nums[dest]);}cur;} } };

前端路由(front-end routing)和后端路由(back-end routing)的区别

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

C# WebSocket简单使用

文章目录 前言Fleck调试工具初始化 前言 最近接到了一个需求&#xff0c;需要网页实现上位机的功能。那就对数据传输的实时性要求很高。那就只能用WebSocket了。这里简单说一下我的WebSocket如何搭建 Fleck C# WebSocket(Fleck) 客户端:html Winfrom Fleck Github官网 我这里…

【蓝桥杯选拔赛真题74】Scratch九九乘法表 少儿编程scratch图形化编程 蓝桥杯创意编程选拔赛真题解析

目录 scratch九九乘法表 一、题目要求 编程实现 二、案例分析 1、角色分析

Python下划线的五个作用介绍,初学者的妙招

文章目录 前言1、用在 Python 解释器&#xff0c;表示上一次的执行结果2、代码中一个独立的下划线&#xff0c;表示这个变量不重要3、双下划线开头和结尾的方法&#xff0c;是魔术方法4、作为变量名中间的一部分5、作为数字中间的一部分&#xff0c;更易读关于Python技术储备一…

我的NPI项目之Android 安全系列 -- 天地混沌初开

最近在因为有新项目启动&#xff0c;目前处在kickoff之后research阶段&#xff0c;预计在1st March能拿到到Pre-EVT&#xff1b; 在此之前最主要的就是需求分析/可行性分析/风险评估。 而对于软件来说&#xff0c;作为传说中的software project leader&#xff0c;要做的最重要…

个人测试面试问题总结

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 &#x1f4d1;设计软件测试用例的方…

云数据库详细介绍

为您的项目选择正确的数据库是一项复杂的任务。许多数据库选项都适合不同的用例&#xff0c;很快就会导致决策疲劳。 我们希望这份备忘单提供高级指导&#xff0c;以找到符合您项目需求的正确服务并避免潜在的陷阱。 注意&#xff1a;Google 关于其数据库用例的文档有限。尽管…

CleanMyMac X2024最新版本mac优化软件好用吗?

为了维护mac系统健康&#xff0c;优化系统功能&#xff0c;我们需要定期给电脑进行清理。那么作为mac清理软件CleanMyMac X软件具备哪些独特性和实用性呢&#xff1f;今天就给大家说明一下。 CleanMyMac X全新版下载如下: https://wm.makeding.com/iclk/?zoneid49983 1、 简…

腾讯云轻量应用服务器挂载对象存储详细说明

腾讯云轻量对象存储LighthouseCOS是腾讯云专为中小企业开发者打造的轻量级数据存储服务&#xff0c;适用于云端网站、小程序、课堂演示、云盘/图床等场景下的数据存储和处理任务。腾讯云百科txybk.com详细介绍腾讯云轻量对象存储使用、开通和收费价格说明&#xff1a; 轻量对象…

【收藏!】Mysql 自定义目录安装

1、Mysql版本我这里选择的是8.0&#xff0c;下边有下载链接&#xff0c;其他的版本也行&#xff0c;操作都是一样的 Mysql8.0下载链接&#xff1a;MySQL :: Download MySQL Installer (Archived Versions) &#xff0c;MySQL :: Download MySQL Installer 2、下载完之后我们双击…

项目实战之RabbitMQ重试机制进行消息补偿通知

&#x1f9d1;‍&#x1f4bb;作者名称&#xff1a;DaenCode &#x1f3a4;作者简介&#xff1a;啥技术都喜欢捣鼓捣鼓&#xff0c;喜欢分享技术、经验、生活。 &#x1f60e;人生感悟&#xff1a;尝尽人生百味&#xff0c;方知世间冷暖。 文章目录 &#x1f31f;架构图&#x…

C++中单引号‘‘和双引号““的区别

操作系统&#xff1a;Windows 10 IDE&#xff1a;CLion 单引号&#xff1a;表示一个字符&#xff0c;例如 a 双引号""&#xff1a;表示一个字符串&#xff0c;例如 "a" 在C中&#xff0c;使用双引号可以方便地创建字符串&#xff0c;而使用单引号可以方便…

计算机组成原理-数据寻址-(相对寻址 基址寻址 变址寻址 )

文章目录 指令寻址vs数据寻址总览偏移寻址基址寻址基址寻址的作用变址寻址变址寻址的作用基址&变址复合寻址相对寻址相对寻址的作用 总结硬件如何实现数的比较 指令寻址vs数据寻址 总览 偏移寻址 变址寄存器&#xff1a;IX 基址寄存器&#xff1a;BR 基址寻址 没有基址…

springboot+vue服装原材料库存进销存管理系统7t14x

21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存储达到…

UE4/UE5 材质实现带框环形进度条

UE4/UE5 材质实现带框环形进度条 此处使用版本&#xff1a;UE4.27 原理&#xff1a;大圆减小圆可以得到圆环&#xff0c;大圆环减小圆环&#xff0c;可以得到圆环外围线框 实现效果&#xff1a; 实现&#xff08;为了给大家放进一张面前能看的图&#xff0c;我费劲了心思&…

C# OpenCvSharp DNN 深度神经网络下的风格迁移模型

目录 介绍 效果 项目 代码 下载 C# OpenCvSharp DNN 深度神经网络下的风格迁移模型 介绍 深度神经网络下的风格迁移模型&#xff0c;适用于OpenCv、EmguCv。 斯坦福大学李飞飞团队的风格迁移模型是一种基于深度学习的图像处理技术&#xff0c;可以将一张图像的风格转移…

解决蚁剑连接本地的问题

文章目录 背景解决办法 背景 记录一次在本地用docker复现题目时&#xff0c;出现蚁剑连接不上问题 解决办法 修改蚁剑的代理设置 再次尝试连接即可