爬虫入门指南(1):学习爬虫的基础知识和技巧

文章目录

  • 爬虫基础知识
        • 什么是爬虫?
        • 爬虫的工作原理
        • 爬虫的应用领域
  • 爬虫准备工作
        • 安装Python
        • 安装必要的库和工具
  • 网页解析与XPath
        • 网页结构与标签
        • CSS选择器与XPath
        • Xpath 语法
            • XPath的基本表达式:
            • XPath的谓语(Predicate):
            • XPath的轴(Axis):
            • XPath的运算符:
            • XPath的函数:
        • 使用XPath解析网页
  • 未完待续...

爬虫基础知识

爬虫基础知识

什么是爬虫?

什么是爬虫

爬虫是一种自动化程序,用于从互联网上获取数据。它通过模拟浏览器行为,访问指定的网页,并从中提取所需的信息。爬虫工作的核心是发送HTTP请求、获取网页内容、解析网页结构并提取数据。

爬虫的工作原理

爬虫的工作原理

爬虫的工作原理可以分为以下几个步骤:

  • 发送HTTP请求:爬虫通过发送HTTP请求来访问目标网页。
  • 获取网页内容:目标网站接收到请求后,会返回网页的HTML源代码作为响应。
  • 解析网页内容:爬虫利用解析技术(如XPath、正则表达式等)对HTML源代码进行解析,从中提取需要的信息。
  • 存储数据:爬虫将提取到的数据进行存储,可以保存到本地文件或写入数据库。

爬虫的应用领域

爬虫的应用领域

爬虫在各个领域都有广泛应用:

  • 数据采集与分析:爬虫可以用于采集互联网上的各种数据,如新闻、商品信息、股票数据等。这些数据可以用于后续的数据分析、挖掘和建模。
  • 搜索引擎:搜索引擎利用爬虫技术来获取互联网上的网页信息,并建立搜索索引,以提供给用户相关的搜索结果。
  • 舆情监测:企业或政府可以利用爬虫技术来监控社交媒体等平台上的舆情动态,及时获取和分析公众的意见和反馈。
  • 价格监测:电商平台可以利用爬虫定期监测竞争对手的商品价格,以调整自己的定价策略。
  • 其他领域:爬虫还广泛应用于个性化推荐系统、自然语言处理、机器学习等领域。

爬虫准备工作

爬虫准备工作

安装Python

爬虫通常使用Python进行开发,因此需要先安装Python。您可以从Python官方网站(https://www.python.org/)下载最新版本的Python,并按照安装向导进行安装。

安装必要的库和工具

爬虫开发中需要使用一些常用的库和工具来简化开发流程:

  • requests:用于发送HTTP请求和处理响应。可以通过pip install requests命令安装。
  • BeautifulSoup:一个优秀的HTML/XML解析库,可以方便地从网页中提取数据。可以通过pip install beautifulsoup4命令安装。
  • lxml:一个高性能的XML/HTML解析库,可以用于XPath解析。可以通过pip install lxml命令安装。

网页解析与XPath

网页解析与XPath

网页结构与标签

网页通常使用HTML(超文本标记语言)编写,它由一系列标签组成。标签用于定义网页的结构和呈现。常见的HTML标签有<html><head><body><div><p>等等。通过理解这些标签及其嵌套关系,可以更好地理解网页的结构。

CSS选择器与XPath

网页解析可以使用不同的方法,其中两种常见的方法是CSS选择器和XPath。

  • CSS选择器:CSS选择器是一种用于选择HTML元素的语法。它通过使用标签名、类名、ID等属性,可以方便地定位到指定的元素。例如,通过.classname选择类名为classname的元素,通过#id选择ID为id的元素。

  • XPath:XPath是一种用于在XML和HTML文档中进行选择的语言。XPath使用路径表达式来选择节点或节点集合。例如,使用//表示选择从根节点开始的所有节点,使用/表示选择当前节点的子节点,使用[]表示筛选条件等。

Xpath 语法

XPath的基本表达式:
# 选择所有名为"book"的节点
xpath_expression = "//book"

# 选择根节点下的所有名为"title"的子节点
xpath_expression = "/root/title"

# 选择当前节点
xpath_expression = "."

# 选择当前节点的父节点
xpath_expression = ".."

  • nodename:选择指定名称的节点。
  • //nodename:选择文档中所有匹配名称的节点。
  • /:从根节点开始选择。
  • .:选择当前节点。
  • ..:选择当前节点的父节点。
XPath的谓语(Predicate):

谓语用于进一步筛选节点,可以使用一些条件进行过滤。

# 选择第2个名为"book"的节点
xpath_expression = "//book[2]"

# 选择最后一个名为"title"的节点
xpath_expression = "//title[last()]"

# 选择位置小于3的名为"book"的节点
xpath_expression = "//book[position()<3]"

# 选择具有属性lang的名为"book"的节点
xpath_expression = "//book[@lang]"

# 选择属性lang的值为"en"的名为"book"的节点
xpath_expression = "//book[@lang='en']"

# 选择文本内容为"Python"的名为"title"的节点
xpath_expression = "//title[text()='Python']"

# 选择属性lang包含"en"的名为"book"的节点
xpath_expression = "//book[contains(@lang, 'en')]"

# 选择属性lang以"en"开始的名为"book"的节点
xpath_expression = "//book[starts-with(@lang, 'en')]"

# 选择属性lang以"en"结束的名为"book"的节点
xpath_expression = "//book[ends-with(@lang, 'en')]"

  • []:用于定义谓语条件。
  • [n]:选择第n个节点。
  • [last()]:选择最后一个节点。
  • [position()<n]:选择位置小于n的节点。
  • [@attribute]:选择具有指定属性的节点。
  • [@attribute='value']:选择具有指定属性值的节点。
  • [text()='value']:选择具有指定文本值的节点。
  • [contains(@attribute, 'value')]:选择属性包含特定值的节点。
  • [starts-with(@attribute, 'value')]:选择属性以特定值开始的节点。
  • [ends-with(@attribute, 'value')]:选择属性以特定值结束的节点。
XPath的轴(Axis):

轴用于在节点之间建立关联,常见的轴包括:

# 选择所有祖先节点
xpath_expression = "//book/ancestor::node()"

# 选择所有祖先节点和当前节点自身
xpath_expression = "//book/ancestor-or-self::node()"

# 选择当前节点的属性节点
xpath_expression = "//book/attribute::node()"

# 选择当前节点的所有子节点
xpath_expression = "//book/child::node()"

# 选择当前节点的所有后代节点
xpath_expression = "//book/descendant::node()"

# 选择当前节点的所有后代节点和自身
xpath_expression = "//book/descendant-or-self::node()"

# 选择当前节点之后的所有节点
xpath_expression = "//book/following::node()"

# 选择当前节点之后的所有同级节点
xpath_expression = "//book/following-sibling::node()"

# 选择当前节点的父节点
xpath_expression = "//book/parent::node()"

# 选择当前节点之前的所有节点
xpath_expression = "//book/preceding::node()"

# 选择当前节点之前的所有同级节点
xpath_expression = "//book/preceding-sibling::node()"

# 选择当前节点
xpath_expression = "//book/self::node()"

  • ancestor:选择所有祖先节点。
  • ancestor-or-self:选择所有祖先节点和当前节点自身。
  • attribute:选择当前节点的属性节点。
  • child:选择当前节点的所有子节点。
  • descendant:选择当前节点的所有后代节点。
  • descendant-or-self:选择当前节点的所有后代节点和自身。
  • following:选择当前节点之后的所有节点。
  • following-sibling:选择当前节点之后的所有同级节点。
  • namespace:选择当前节点的命名空间节点。
  • parent:选择当前节点的父节点。
  • preceding:选择当前节点之前的所有节点。
  • preceding-sibling:选择当前节点之前的所有同级节点。
  • self:选择当前节点。
XPath的运算符:

XPath支持使用运算符进行条件筛选,常见的运算符包括:

# 判断两个值是否相等
xpath_expression = "//book[price=10]"

# 判断两个值是否不相等
xpath_expression = "//book[price!=10]"

# 判断一个值是否小于另一个值
xpath_expression = "//book[price<10]"

# 判断一个值是否大于另一个值
xpath_expression = "//book[price>10]"

# 判断一个值是否小于等于另一个值
xpath_expression = "//book[price<=10]"

# 判断一个值是否大于等于另一个值
xpath_expression = "//book[price>=10]"

# 用于逻辑与操作
xpath_expression = "//book[price=10 and lang='en']"

# 用于逻辑或操作
xpath_expression = "//book[price=10 or lang='en']"

# 用于逻辑非操作
xpath_expression = "//book[not(price=10)]"

  • =:判断两个值是否相等。
  • !=:判断两个值是否不相等。
  • <:判断一个值是否小于另一个值。
  • >:判断一个值是否大于另一个值。
  • <=:判断一个值是否小于等于另一个值。
  • >=:判断一个值是否大于等于另一个值。
  • and:用于逻辑与操作。
  • or:用于逻辑或操作。
  • not:用于逻辑非操作。
XPath的函数:

XPath提供了一些内置函数,可以在选择节点时进行一些操作和转换。常用的函数包括:

# 选择节点的文本内容
xpath_expression = "//title/text()"

# 选择节点的名称
xpath_expression = "name(//book)"

# 连接多个字符串
xpath_expression = 'concat("Hello", " ", "World")'

# 判断一个字符串是否包含另一个字符串
xpath_expression = 'contains("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串开始
xpath_expression = 'starts-with("Hello World", "Hello")'

# 判断一个字符串是否以另一个字符串结束
xpath_expression = 'ends-with("Hello World", "World")'

# 获取字符串的长度
xpath_expression = 'string-length("Hello World")'

# 移除字符串两端的空白字符并压缩中间的空白字符
xpath_expression = 'normalize-space("   Hello    World   ")'

# 计算节点的数量
xpath_expression = 'count(//book)'

  • text():选择节点的文本内容。
  • name():选择节点的名称。
  • concat():连接多个字符串。
  • contains():判断一个字符串是否包含另一个字符串。
  • starts-with():判断一个字符串是否以另一个字符串开始。
  • ends-with():判断一个字符串是否以另一个字符串结束。
  • string-length():获取字符串的长度。
  • normalize-space():移除字符串两端的空白字符并压缩中间的空白字符。
  • count():计算节点的数量。

使用XPath解析网页

使用XPath解析网页可以方便地定位和提取需要的数据。以下是使用Python的lxml库进行XPath解析csdn中python专栏的示例代码:

import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver

# 发送HTTP请求获取网页内容
url = "https://blog.csdn.net/nav/python"

# 使用Chrome浏览器,需提前安装ChromeDriver并配置环境变量
driver = webdriver.Chrome()

# 打开网页
driver.get(url)

# 等待网页内容加载完成(根据实际情况调整等待时间)
time.sleep(3)

# 获取完整的网页内容
html = driver.page_source

# 关闭浏览器
driver.quit()

# 解析网页内容
soup = BeautifulSoup(html, "lxml")

# 提取所需信息
articles = soup.select(".Community .active-blog")
# print(articles)
for article in articles:
    title = article.select_one(".content .desc").text.strip()
    author = article.select_one(".operation .operation-c span").text.strip()
    print("标题:", title)
    print("作者:", author)
    print("-" * 50)

代码中,我们使用requests库发送HTTP请求获取网页内容,然后使用lxml库的etree模块将HTML源代码转换为可解析的树形结构。接下来,我们使用XPath路径表达式来选择所需的节点,并通过xpath()方法提取出标题和作者等信息。
效果如图:
在这里插入图片描述

未完待续…

python 爬虫

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/34094.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【K8S系列】深入解析K8S存储

序言 做一件事并不难&#xff0c;难的是在于坚持。坚持一下也不难&#xff0c;难的是坚持到底。 文章标记颜色说明&#xff1a; 黄色&#xff1a;重要标题红色&#xff1a;用来标记结论绿色&#xff1a;用来标记一级论点蓝色&#xff1a;用来标记二级论点 Kubernetes (k8s) 是一…

elementui el-table-column表头换行,自定义表头以及排序图标的位置放置

目录 1、普通表头换行⭐️想实现以下效果 2、表头换行时调整文字和排序图标的位置⭐️想实现以下效果遇到问题 效果如下遇到问题 效果如下⭐️最终成功实现以下效果 &#x1f44d;写在最后 1、普通表头换行 https://www.jb51.net/article/228935.htm // 在需要换行的地方加入换…

开源虚拟化工具VirtualBox安装部署

什么是Virtualbox VirtualBox是一款由Oracle开发和维护的免费开源虚拟化软件&#xff0c;用于在一台计算机上创建和管理多个虚拟机。它允许用户在单个物理计算机上运行多个操作系统&#xff0c;例如Windows、Linux、macOS等。VirtualBox提供了一个虚拟化环境&#xff0c;使用户…

云原生(第二篇)k8s-二进制搭建

准备五台机器&#xff1a; master01&#xff1a;192.168.169.10 node01&#xff1a;192.168.169.40 node02&#xff1a;192.168.169.50 master02&#xff1a;192.168.169.60 负载均衡nginxkeepalive01&#xff08;master&#xff09;&#xff1a;192.168.169.20 负载均衡…

9.用python写网络爬虫,完结

前言 这是python网络爬虫的最后一篇给大家做个总结&#xff0c;且看且珍惜把&#xff01; 截止到目前&#xff0c; 前几章本书介绍的爬虫技术都应用于一个定制网站&#xff0c;这样可以帮助我们更加专注于学习特定技巧。而在本章中&#xff0c;我们将分析几个真实网站&#xff…

azure databricks因为notebook 日志打多或者打印图片太多,往下拉卡死怎么处理

1、同事碰到个问题&#xff0c;databricks 页面卡死不动了 2、我。。。。。。。。测试了下搞不定&#xff0c;找azure的工程师&#xff0c;特此笔记如下图 !](https://img-blog.csdnimg.cn/5db9756d0e224d15a9a607561b47591f.png)

2014年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题——纯享题目版

&#x1f3e0;个人主页&#xff1a;fo安方的博客✨ &#x1f482;个人简历&#xff1a;大家好&#xff0c;我是fo安方&#xff0c;考取过HCIE Cloud Computing、CCIE Security、CISP、RHCE、CCNP RS、PEST 3等证书。&#x1f433; &#x1f495;兴趣爱好&#xff1a;b站天天刷&…

QT ObjectThread moveToThread多线程操作

QT多线程专栏共有15篇文章&#xff0c;从初识线程到、QMutex锁、QSemaphore信号量、Emit、Sgnals、Slot主线程子线程互相传值同步变量、QWaitCondition、事件循环、QObjects、线程安全、线程同步、线程异步、QThreadPool线程池、ObjectThread多线程操作、 moveToThread等线程操…

LeetCode 打卡day46-- 单词拆分和多重背包问题

一个人的朝圣 — LeetCode打卡第46天 知识总结 Leetcode 139. 单词拆分题目说明代码说明 知识总结 今天写了一道题目, 但是还挺难的, 而且是面试高频题目 还过了一遍多重背包问题. 多重背包与01背包的区别在于多重背包限制了物品的个数, 某些物品的个数可能不为1, 可以使用两…

c++day3

#include <iostream> using namespace std;class Person { private:int age;int *p; public://无参构造Person():p(new int(89)){age 18;cout << "无参构造函数" <<endl;}//有参构造Person(int age,int num){this->age age;this->pnew int…

【Docker】Docker中 AUFS、BTRFS、ZFS、存储池概念的详细讲解

前言 Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。 &#x1f4d5;作者简介&#xff1a;热…

基于SpringCloud微服务毕业论文管理系统设计与实现

一、概述 1.1 课题背景及意义 随着学校不断扩大和学生人数的猛增,关于各类教学信息也越来越多。毕业论文的管理也成为了不可避免的一道关卡,学生需要及时获取论文相关进度,学校的管理者要求能方便对论文进行处理。基于这些需求,开发一个实用的微服务管理系统,以满足双方…

GELU激活函数

GELU是一种常见的激活函数&#xff0c;全称为“Gaussian Error Linear Unit”&#xff0c;其图像与ReLU、ELU对比如下&#xff1a; 文章链接&#xff1a;https://arxiv.org/pdf/1606.08415.pdf https://pytorch.org/docs/master/generated/torch.nn.GELU.html 公式为&#xff1…

Spring Cloud - HTTP 客户端 Feign 、自定义配置、优化、最佳实践

目录 一、Feign 是什么&#xff0c;有什么用呢&#xff1f; 二、Feign 客户端的使用 2.1、远程调用 1.引入依赖 2.在order-service&#xff08;发起远程调用的微服务&#xff09;的启动类添加注解开启Feign的功能 3.编写 Feign 客户端 4.通过 Feign 客户端发起远程调用 …

flutter 简介 flutter 能为我们做什么

flutter 简介 flutter 能为我们做什么 前言一、什么是Flutter&#xff1f;二、Flutter的特点和优势三、Flutter与其他跨平台框架的比较总结 前言 陆陆续续已经写了60多篇的flutter 的文章了&#xff0c;本篇文章就来说说我对flutter 的简单看法 一、什么是Flutter&#xff1f…

excel相关操作

文章目录 1、数据分列与绘图1.1、杂乱的数据拷贝到excel1.2、 智能分列1.2 或者手动设置分列1.3、杂论的符号替换掉1.4、对时间再次只能分裂1.5、绘图 1、数据分列与绘图 1.1、杂乱的数据拷贝到excel 1.2、 智能分列 选择数据&#xff0c;数据–>分列–> 智能分列 结…

速成!|量子粒子群优化算法及其实现(Matlab)

作者在前面的两篇文章中介绍了标准粒子群及其变体&#xff0c;**由于PSO算法需要设定的参数(惯性因子w&#xff0c;学习因子 c1&#xff0c;c2)太多&#xff0c;不利于找到待优化模型的最优参数&#xff0c;而且粒子位置变化缺少随机性&#xff0c;容易陷入局部最优。**针对这些…

UNet Pytorch实现

用于图像分割的不同种类的Unet模型的实现 UNet - U-Net&#xff1a; 用于生物医学图像分割的卷积网络 https://arxiv.org/abs/1505.04597RCNN-UNet - 基于U-Net的递归残差卷积神经网络&#xff08;R2U-Net&#xff09;用于医学图像分割 https://arxiv.org/abs/1802.06955Atten…

第八十五天学习记录:C++核心:内存分区模型

内存分区模型 C程序在执行时&#xff0c;将内存大方向划分为4个区域 1、代码区&#xff1a;存放函数体的二进制代码&#xff0c;由操作系统进行管理 2、全局区&#xff1a;存放全局变量和静态变量以及常量 3、栈区&#xff1a;由编译器自动分配释放&#xff0c;存放函数的参数…

5.8.2 TCP报文段首部格式

5.8.2 TCP报文段首部格式 TCP报文段首部格式在很大程度上体现了TCP协议的功能 一、数据封装过程 如图 应用层报文传送到传输层之后&#xff0c;加上TCP报文段的首部构成了TCP数据传送单位&#xff0c;我们称之为TCP报文段。在发送时TCP报文段是作为IP数据报的数据部分&#…