Python爬虫----python爬虫基础

一、python爬虫基础-爬虫简介

1、现实生活中实际爬虫有哪些?

2、什么是网络爬虫?

3、什么是通用爬虫和聚焦爬虫?

4、为什么要用python写爬虫程序

5、环境和工具

二、python爬虫基础-http协议和chrome抓包工具

1、什么是http和https协议

2、http请求过程

3、url详解

4、常用的请求方法:

5、请求头常见参数:

6、常见响应状态码:

7、浏览器抓包工具


一、python爬虫基础-爬虫简介

1、现实生活中实际爬虫有哪些?

(1)搜索引擎(百度、谷歌、360)

(2)购物助手:可以自动查看历史价格,通过爬虫实现爬取电商平台价格数据。

(3)数据分析与研究:根据爬虫程序爬取数据并对数据进行分析。

(4)抢票软件:

2、什么是网络爬虫?

爬虫是一个模拟人类请求网站行为的程序、可以自动请求网页,并将数据抓取出来,然后使用一定的规则把有用的数据筛选出来。

3、什么是通用爬虫和聚焦爬虫?

通用爬虫‌(General Purpose Web Crawler 或 Scalable Web Crawler)的目标是覆盖整个互联网或尽可能广泛的网络空间进行数据抓取。它们主要用于搜索引擎,如Baidu、Google和Yahoo,目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用爬虫的爬行范围和数量巨大,通常采用并行工作方式,但需要较长时间才能刷新一次页面‌。

聚焦爬虫‌(Focused Crawler 或 Topical Crawler)则是选择性地爬行那些与预先定义好的主题相关的页面。与通用爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,从而极大地节省了硬件和网络资源,保存的页面数量少且更新快,能够很好地满足特定人群对特定领域信息的需求‌。

4、为什么要用python写爬虫程序

(1)PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力。爬虫是工具性程序,对速度和效率要求比较高。

(2)Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动。爬虫要经常修改采集代码。

(3)C/C++:运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。 (4)Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请家模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redls框架让我们开发肥虫变得异常简单。

5、环境和工具

(1)开发环境:python3以上

(2)使用工具:Pycharm

(3)虚拟环境: Virtualenv/Virtualenvwrapper

二、python爬虫基础-http协议和chrome抓包工具

1、什么是http和https协议

HTTP协议:全程是HyperText Transfer Protocol,即超文本传输协议,是一种发布和接收HTML的方法。服务端口号80。

HTTPS协议:是http协议的加密版本,在HTTP下加入了ssl层,服务端口号是443端口。

2、http请求过程

(1)当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为"Get"和"Post"两种方法。

(2)当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com的html文件,服务器把Response文件对象发送回给浏览器。

(3)浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如images文件,CSS文件,JS文件。浏览器会自动再次发送Request请求去获取图片,CSS文件,或者JS文件。

(4)当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

3、url详解

URL是UniforF Resource Locator 的简写,统一资源定位符。

一个 URL 由以下几部分组成:

scheme://host:port/path/?query-string=xxx#anchor
  • scheme:代表的是访问的协议,一般为http或者 https以及 ftp 等。

  • host:主机名,域名,比如www.baidu.com。

  • port:端口号。当你访问一个网站的时候,浏览器默认使用80端口。

  • path:查找路径。比如:www.baidu.com/trending/now,后面的trending/now 就是 path 。

  • query-string:查询字符串,比如:www.baidu,con/s?wd-python,后面的 wd-python 就是查询字符串。如果查询多个参数使用&进行拼接。

  • anchor:锚点,后台一般不用管,前端用来做页面定位的。

在浏览器中请求一个 url,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。

4、常用的请求方法:

在 Http 协议中,定义了八种请求方法。这里介绍两种常用的请求方法,分别是get 请求和 post 请求。

(1)set请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用 set 请求。

(2)post 请求:向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响的时候会使用 post 请求。

以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制,也经常会不按常理出牌,有可能一个应该使用get方法的请求就一定要改成post请求,这个要视情况而定。

5、请求头常见参数:

在 http 协议中,向服务器发送一个请求,数据分为三部分,第一个是把数据放在url中,第二个是把数据放在 body 中(在 post 请求中),第三个就是把数据放在 head中。这里介绍在网络虫中经常会用到的一些请求头参数:

(1)Uer-Agent:浏览器的名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求,那么我们的user-Agent就是python ,这对于那些有反爬虫机制的网站来说,可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值,来伪装我们的爬虫。

(2)Referer :表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的,那么就不败相关的响应。 (3)cookie: http 协议是无状态的。也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时仅就用 cookie来做标识。一般如果想要做登录后才能访问的网站,那么就需发送 cookie 信息。

6、常见响应状态码:

  • 200:请求正常,服务器正常的返回数据。

  • 301: 永久重定向。比如在访问www.jingdong.com的时候会重定问到www.jd.com。

  • 302:临时重定向。比如在访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面。

  • 400:请求的url在服务器上找不到。换句话说就是请求 url错误。

  • 403: 服务器拒绝访问,权根不够。

  • 500: 服务器内部错误。可能是服务器出现 bug 了。

7、浏览器抓包工具

浏览器内右键->检查或F12:

(1)Elements 面板

作用:查看和修改 HTML 和 CSS 代码

这个面板展示了当前页面的 HTML 结构 和 CSS 样式。你可以直接查看页面的 DOM(Document Object Model,文档对象模型),也就是页面的 HTML 元素的层次结构,以及与每个元素关联的 CSS 样式。

  • 实时查看页面结构:通过 Elements 面板,你可以看到浏览器是如何解析和展示 HTML 元素的。每个元素都可以展开以查看其子元素。

  • 修改页面样式:你可以在这个面板中临时修改 HTML 或 CSS 来查看效果变化。比如,右键单击某个元素,选择 “检查”(Inspect),可以查看并实时编辑该元素的样式。这些修改只会在本地生效,不会影响服务器上的页面。

  • 调试布局问题:如果页面布局有问题,比如元素显示错位,或是某个元素不可见,你可以使用 Elements 面板检查该元素的样式、布局盒模型(Box Model),看看是否有 CSS 样式问题。

使用示例:

  • 按下 F12,打开 Elements 面板。

  • 移动鼠标到页面上的元素,浏览器会高亮显示该元素的 HTML 代码和样式。

  • 你可以临时修改 HTML 或 CSS,看看页面会如何变化。

(2)Console 面板

作用:查看日志信息、调试 JavaScript

Console 面板是用于执行和调试 JavaScript 代码 的区域。它有两个主要功能:

  • 输出日志:开发者可以通过 JavaScript 中的 console.log() 方法将调试信息输出到控制台。这对于查看程序运行过程中的变量状态、错误信息等非常有用。

  • 执行 JavaScript 代码:你可以直接在控制台中输入和执行 JavaScript 代码。比如,输入 document.querySelector('h1'),可以获取页面上的第一个 <h1> 元素。

另外,当 JavaScript 代码抛出错误时,错误信息也会显示在 Console 面板中,帮助你定位问题。

使用示例:

  • 按下 F12,打开 Console 面板。

  • 输入 alert('Hello!') 并按下回车,浏览器会弹出一个提示框显示 “Hello!”。

(3)Network 面板

作用:监控网络请求,分析页面加载性能

Network 面板显示了页面加载时发起的所有网络请求,包括:

  • HTML、CSS、JavaScript 文件的请求。

  • 图片、视频、音频等媒体资源的加载。

  • AJAX 请求,即前端与服务器之间的动态数据交换。

你可以使用这个面板来分析页面加载的速度,查看哪些资源占用了较多时间,并可以检查每个请求的响应内容、状态码等。开发者通常用这个面板来调试 API 调用,确保请求的数据正确返回,以及分析页面性能瓶颈。

Network面板的概述:时间轴

当你打开 Network 面板时,你会看到一个时间轴,它显示了页面加载过程中发出的所有请求,按顺序排列,通常包括:

  • HTML 页面:页面的主 HTML 文件。

  • CSS 文件:用于页面样式的 CSS 文件。

  • JavaScript 文件:前端逻辑的 JavaScript 文件。

  • 图片、字体、媒体资源:如图片、字体、视频等。

  • Ajax 请求或 Fetch 请求:与服务器进行的异步数据交换。

  • 其他资源:如 WebSocket 连接、manifest 文件等。

(4)Sources 面板

作用:调试 JavaScript 代码

Sources 面板允许开发者查看和调试 JavaScript 代码。你可以在这个面板中设置断点(breakpoints),当代码执行到某个断点时,浏览器会暂停运行,这样你可以逐步查看变量的值、调用的函数堆栈等。

常见功能:

  • 断点调试:设置断点后,当浏览器执行到这一行代码时会暂停,你可以一步步调试代码。

  • 监控变量:在调试时可以实时查看变量的值,帮助你分析 JavaScript 的执行过程。

  • 查看本地和会话存储:可以通过 Application 面板查看本地存储(LocalStorage)或会话存储(SessionStorage)中的数据。

(5)Application 面板

作用:查看和管理存储、缓存及会话数据

Application 面板允许你查看页面存储的数据和资源,包括:

  • Cookies:你可以查看每个域名下的 Cookie,并且可以修改或删除它们。

  • LocalStorage 和 SessionStorage:查看页面存储在浏览器本地的数据,这通常用于保持用户状态等。

  • IndexedDB 和 Web SQL:这些是浏览器内的数据库存储,可以存储较大数据。

  • Service Workers:你可以管理页面的服务工作线程(Service Workers),这对于 PWA(渐进式网页应用)和离线功能非常重要。

(6)Performance 面板

作用:分析页面加载性能,进行性能优化

Performance 面板允许你记录页面加载过程中的性能数据,帮助你分析哪些部分消耗了过多的资源。这对于优化页面的加载速度非常重要,开发者可以通过分析页面的渲染、资源加载、JavaScript 执行等来发现瓶颈。

常见功能:

  • 记录页面性能:通过点击 “Record” 按钮,你可以记录页面加载的详细信息,分析每个部分的加载时间。

  • 帧率分析:如果你的页面包含动画或交互,可以查看帧率来确保页面的流畅度。

(7)Security 面板

作用:检查页面的安全性

Security 面板帮助开发者查看页面的安全信息,比如 HTTPS 证书是否有效,是否存在混合内容(即 HTTPS 页面中包含了不安全的 HTTP 资源)。如果你的网站有安全问题,这个面板会显示警告。

(8)Lighthouse 面板

作用:分析页面的整体质量,包括性能、可访问性、SEO

Lighthouse 是一个自动化工具,用于提升 Web 应用的质量。它可以生成关于页面性能、可访问性、SEO(搜索引擎优化)等方面的报告,帮助开发者识别出可以改进的地方。

使用示例:

  • 按下 F12,打开 Lighthouse 面板。

  • 选择要分析的项目(例如性能、SEO 等),点击 “Generate Report” 生成报告。

总结:

  • Elements:查看和编辑页面结构和样式。

  • Console:查看调试信息,执行 JavaScript 代码。

  • Network:监控和分析页面加载的网络请求。

  • Sources:调试 JavaScript 代码,设置断点。

  • Application:管理页面存储的数据和资源。

  • Performance:分析页面性能,识别瓶颈。

  • Security:检查页面的安全性。

  • Lighthouse:生成页面质量报告。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/918293.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据新视界 -- 大数据大厂之 Impala 性能飞跃:动态分区调整的策略与方法(上)(21 / 30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

Java基础-Java多线程机制

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 一、引言 二、多线程的基本概念 1. 线程与进程 2. 多线程与并发 3. 多线程的优势 三、Java多线程的实…

Unity中HDRP设置抗锯齿

一、以前抗锯齿的设置方式 【Edit】——>【Project Settings】——>【Quality】——>【Anti-aliasing】 二、HDRP项目中抗锯齿的设置方式 在Hierarchy中——>找到Camera对象——>在Inspector面板上——>【Camera组件】——>【Rendering】——>【Pos…

动手学深度学习72 优化算法

1. 优化算法 任意两点连线&#xff0c;所有线上的值都在集合里面–凸集 在机器学习&#xff0c;凹凸函数的区别&#xff1f; 凸函数表达能力有限 动量法&#xff1a; 比较平滑的改变方向&#xff0c;两个下降方向不一样【冲突】的时候&#xff0c;抵消掉一些使梯度的更新不那…

Linux:进程的优先级 进程切换

文章目录 前言一、进程优先级1.1 基本概念1.2 查看系统进程1.3 PRI和NI1.4 调整优先级1.4.1 top命令1.4.2 nice命令1.4.3 renice命令 二、进程切换2.1 补充概念2.2 进程的运行和切换步骤&#xff08;重要&#xff09; 二、Linux2.6内核进程O(1)调度队列&#xff08;重要&#x…

Python绘制雪花

文章目录 系列目录写在前面技术需求完整代码代码分析1. 代码初始化部分分析2. 雪花绘制核心逻辑分析3. 窗口保持部分分析4. 美学与几何特点总结 写在后面 系列目录 序号直达链接爱心系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4…

2023年MathorCup数学建模B题城市轨道交通列车时刻表优化问题解题全过程文档加程序

2023年第十三届MathorCup高校数学建模挑战赛 B题 城市轨道交通列车时刻表优化问题 原题再现&#xff1a; 列车时刻表优化问题是轨道交通领域行车组织方式的经典问题之一。列车时刻表规定了列车在每个车站的到达和出发&#xff08;或通过&#xff09;时刻&#xff0c;其在实际…

AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台

AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台 传统老牌工作流引擎比如activiti,flowable或者camunda等虽然功能强大&#xff0c;也被企业广泛采用&#xff0c;然后也存着在诸如学习曲线陡峭&#xff0c;上手难度大&#x…

构建SSH僵尸网络

import argparse import paramiko# 定义一个名为Client的类&#xff0c;用于表示SSH客户端相关操作 class Client:# 类的初始化方法&#xff0c;接收主机地址、用户名和密码作为参数def __init__(self, host, user, password):self.host hostself.user userself.password pa…

小白快速上手 labelme:新手图像标注详解教程

前言 本教程主要面向初次使用 labelme 的新手&#xff0c;详细介绍了如何在 Windows 上通过 Anaconda 创建和配置环境&#xff0c;并使用 labelme 进行图像标注。 1. 准备工作 在开始本教程之前&#xff0c;确保已经安装了 Anaconda。可以参考我之前的教程了解 Anaconda 的下…

AB矩阵秩1乘法,列乘以行

1. AB矩阵相乘 2. 代码测试 python 代码 #!/usr/bin/env python # -*- coding:utf-8 -*- # FileName :ABTest.py # Time :2024/11/17 8:37 # Author :Jason Zhang import numpy as np from abc import ABCMeta, abstractmethodnp.set_printoptions(suppressTrue, pr…

JS学习日记(jQuery库)

前言 今天先更新jQuery库的介绍&#xff0c;它是一个用来帮助快速开发的工具 介绍 jQuery是一个快速&#xff0c;小型且功能丰富的JavaScript库&#xff0c;jQuery设计宗旨是“write less&#xff0c;do more”&#xff0c;即倡导写更少的代码&#xff0c;做更多的事&#xf…

stm32下的ADC转换(江科协 HAL版)

十二. ADC采样 文章目录 十二. ADC采样12.1 ADC的采样原理12.2 STM32的采样基本过程1.引脚与GPIO端口的对应关系2.ADC规则组的四种转换模式(**)2.2 关于转换模式与配置之间的关系 12.3 ADC的时钟12.4 代码实现(ADC单通道 & ADC多通道)1. 单通道采样2. 多通道采样 19.ADC模数…

124. 二叉树中的最大路径和【 力扣(LeetCode) 】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路四、参考代码 零、原题链接 124. 二叉树中的最大路径和 一、题目描述 二叉树中的 路径 被定义为一条节点序列&#xff0c;序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径…

【安全科普】NUMA防火墙诞生记

一、我为啥姓“NUMA” 随着网络流量和数据包处理需求的指数增长&#xff0c;曾经的我面对“高性能、高吞吐、低延迟”的要求&#xff0c;逐渐变得心有余而力不足。 多CPU技术应运而生&#xff0c;SMP&#xff08;对称多处理&#xff09;和NUMA&#xff08;非一致性内存访问&a…

免费送源码:Java+Springboot+MySQL Springboot多租户博客网站的设计 计算机毕业设计原创定制

Springboot多租户博客网站的设计 摘 要 博客网站是当今网络的热点&#xff0c;博客技术的出现使得每个人可以零成本、零维护地创建自己的网络媒体&#xff0c;Blog站点所形成的网状结构促成了不同于以往社区的Blog文化&#xff0c;Blog技术缔造了“博客”文化。本文课题研究的“…

数字IC后端实现之Innovus specifyCellEdgeSpacing和ICC2 set_placement_spacing_rule的应用

昨天帮助社区IC训练营学员远程协助解决一个Calibre DRC案例。通过这个DRC Violation向大家分享下Innovus和ICC2中如何批量约束cell的spacing rule。 数字IC后端手把手实战教程 | Innovus verify_drc VIA1 DRC Violation解析及脚本自动化修复方案 下图所示为T12nm A55项目的Ca…

IntelliJ+SpringBoot项目实战(七)--在SpringBoot中整合Redis

Redis是项目开发中必不可少的缓存工具。所以在SpringBoot项目中必须整合Redis。下面是Redis整合的步骤&#xff1a; &#xff08;1&#xff09;因为目前使用openjweb-sys作为SpringBoot的启动应用&#xff0c;所以在openjweb-sys模块的application-dev.yml中增加配置参数&…

深挖C++赋值

详解赋值 const int a 10; int b a;&a 0x000000b7c6afef34 {56496} &a 0x000000b7c6afef34 {10} 3. &b 0x000000b7c6afef54 {10} 总结&#xff1a; int a 10 是指在内存中&#xff08;栈&#xff09;中创建一个int &#xff08;4 byte&#xff09;大小的空间…

java八股-jvm入门-程序计数器,堆,元空间,虚拟机栈,本地方法栈,类加载器,双亲委派,类加载执行过程

文章目录 PC Register堆虚拟机栈方法区(Metaspace元空间双亲委派机制类加载器 类装载的执行过程 PC Register 程序计数器&#xff08;Program Counter Register&#xff09;是 Java 虚拟机&#xff08;JVM&#xff09;中的一个组件&#xff0c;它在 JVM 的内存模型中扮演着非常…