python爬虫9:实战2

python爬虫9:实战2

前言

​ python实现网络爬虫非常简单,只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点,方便以后复习。

申明

​ 本系列所涉及的代码仅用于个人研究与讨论,并不会对网站产生不好影响。

目录结构

文章目录

    • python爬虫9:实战2
      • 1. 目标
      • 2. 详细流程
        • 2.1 前置说明
        • 2.2 修改1:目标小说获取解析函数修改
        • 2.3 修改2:章节目录获取解析函数修改
        • 2.4 修改3:获取小说内容解析函数修改
        • 2.5 完整代码:
      • 3. 总结

1. 目标

​ 这次爬虫实战,采用的库为:requests + bs4,这次的案例来自于python爬虫7:实战1这篇文章,本次主要的点在于利用bs4进行解析,因此,建议大家先阅读python爬虫7:实战1,因为里面的代码我会直接拷贝过来用。

再次说明,案例本身并不重要,重要的是如何去使用和分析,另外为了避免侵权之类的问题,我不会放涉及到网站的图片,希望能理解

2. 详细流程

2.1 前置说明

​ 由于不需要重新写大部分代码,因此本篇主要讲解一下如何用bs4去解析网页。

​ 这里先把之前的代码拷贝过来:

# 导包
import requests
from lxml import etree

# 都要用到的参数
HEADERS = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
}

# 获取搜索某小说后的页面
def get_search_result():
    # 网址
    url = 'https://www.iwurexs.net/so.html'
    # 请求参数
    search = input('请输入想要搜索的小说:')
    params = {
        'q' : search
    }
    # 请求
    response = requests.get(url,headers=HEADERS,params=params)
    # 把获取到的网页保存到本地
    with open('search.html', 'w', encoding='utf-8') as f:
        f.write(response.content.decode('utf-8'))

# 解析网页
def parse_search_result():
    # 打开文件,读取文件
    with open('search.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 基础url
        base_url = 'https://www.iwurexs.net/'
        # 初始化lxml
        html = etree.HTML(content)
        # 获取目标节点
        href_list = html.xpath('//div[@class="show"]//table[@class="grid"]//td//a/@href')
        text_list = html.xpath('//div[@class="show"]//table[@class="grid"]//td//a/text()')
        # 处理内容值
        url_list = [base_url+href  for href in href_list]
        # 选择要爬取的小说
        for i,text in enumerate(text_list):
            print('当前小说名为:',text)
            decision = input('是否爬取它(只能选择一本),Y/N:')
            if decision == 'Y':
                return url_list[i],text

# 请求目标小说网站
def get_target_book(url):
    # 请求
    response = requests.get(url,headers=HEADERS)
    # 保存源码
    with open('book.html', 'w', encoding='utf-8') as f:
        f.write(response.content.decode('utf-8'))

# 解析章节网页
def parse_chapter(base_url):
    # 打开文件,读取内容
    with open('book.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 初始化
        html = etree.HTML(content)
        # 解析
        href_list = html.xpath('//div[@class="show"]//div[contains(@class,"showBox") and position()=3]//ul//a/@href')
        text_list = html.xpath('//div[@class="show"]//div[contains(@class,"showBox") and position()=3]//ul//a/text()')
        # 处理:拼凑出完整网页
        url_list = [base_url+url for url in href_list]
        # 返回结果
        return url_list,text_list

# 请求小说页面
def get_content(url,title):
    # 请求
    response = requests.get(url,headers=HEADERS)
    # 获取源码
    content = response.content.decode('utf-8')
    # 初始化
    html = etree.HTML(content)
    # 解析
    text_list = html.xpath('//div[contains(@class,"book")]//div[@id="content"]//text()')
    # 后处理
    # 首先,把第一个和最后一个的广告信息去掉
    text_list = text_list[1:-1]
    # 其次,把里面的空白字符和\xa0去掉
    text_list = [text.strip().replace('\xa0','') for text in text_list]
    # 最后,写入文件即可
    with open(title+'.txt','w',encoding='utf-8') as g:
        for text in text_list:
            g.write(text+'\n')

if __name__ == '__main__':
    # 第一步,获取到搜索页面的源码
    # get_search_result()
    # 第二步,进行解析
    target_url,name = parse_search_result()
    # 第三步,请求目标小说页面
    get_target_book(target_url)
    # 第四步,解析章节网页
    url_list,text_list = parse_chapter(target_url)
    for url,title in zip(url_list,text_list):
        # 第五步,请求小说具体的某个章节并直接解析
        get_content(url,title)
        break

​ 其中需要修改的部分有:三个解析函数

2.2 修改1:目标小说获取解析函数修改

​ 本次要修改的函数名为parse_search_result

​ 那么,看下图:

在这里插入图片描述

​ 那么,我们可以这么去寻找a标签:

1. 找到table标签,其class="grid"
2. 找到table下的a标签即可

​ 那么,代码修改如下:

# 解析网页
def parse_search_result():
    # 打开文件,读取文件
    with open('search.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 基础url
        base_url = 'https://www.iwurexs.net/'
        # 初始化lxml
        soup = BeautifulSoup(content,'lxml')
        # 获取目标节点
        a_list = soup.find_all('table',attrs={'class':'grid'})[0].find_all('a')
        url_list = [base_url + a['href'] for a in a_list]
        text_list = [a.string for a in a_list]
        # 选择要爬取的小说
        for i,text in enumerate(text_list):
            print('当前小说名为:',text)
            decision = input('是否爬取它(只能选择一本),Y/N:')
            if decision == 'Y':
                return url_list[i],text

​ 运行结果如下:

在这里插入图片描述

2.3 修改2:章节目录获取解析函数修改

​ 本次要修改的函数名为parse_chapter

​ 首先,还是看下图:

在这里插入图片描述

​ 那么,可以这么进行解析:

1. 首先,获取所有含有class="showBox"的div标签,共三个,但是我们只要第三个
2. 其次,获取该div下的所有a标签即可

​ 那么,代码修改如下:

# 解析章节网页
def parse_chapter(base_url):
    # 打开文件,读取内容
    with open('book.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 初始化
        soup = BeautifulSoup(content,'lxml')
        # 解析
        # 获取最后一个div标签
        div_label = soup.find_all('div',attrs={'class':'showBox'})[-1]
        # 获取所有a标签
        a_list = div_label.find_all('a')
        # 获取内容
        url_list = [base_url+a['href'] for a in a_list]
        text_list = [a.string for a in a_list]
        # 返回结果
        return url_list,text_list

​ 运行结果如下:

在这里插入图片描述

2.4 修改3:获取小说内容解析函数修改

​ 本次要修改的函数名为get_content

​ 首先,还是看下图:

在这里插入图片描述

​ 那么,可以这么进行解析:

1. 直接获取id=“content”的div标签
2. 在获取其下的所有内容

​ 那么,修改代码如下:

# 请求小说页面
def get_content(url,title):
    # 请求
    response = requests.get(url,headers=HEADERS)
    # 获取源码
    content = response.content.decode('utf-8')
    # 初始化
    soup = BeautifulSoup(content,'lxml')
    # 解析
    text_list = list(soup.find_all('div',attrs={'id':'content'})[0].stripped_strings)
    # 后处理
    # 首先,把第一个和最后一个的广告信息去掉
    text_list = text_list[1:-1]
    # 其次,把里面的空白字符和\xa0去掉
    text_list = [text.strip().replace('\xa0','') for text in text_list]
    # 最后,写入文件即可
    with open(title+'.txt','w',encoding='utf-8') as g:
        for text in text_list:
            g.write(text+'\n')

​ 最终运行结果如下:

在这里插入图片描述

2.5 完整代码:

# 导包
import requests
from bs4 import BeautifulSoup


# 都要用到的参数
HEADERS = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
}

# 获取搜索某小说后的页面
def get_search_result():
    # 网址
    url = 'https://www.iwurexs.net/so.html'
    # 请求参数
    search = input('请输入想要搜索的小说:')
    params = {
        'q' : search
    }
    # 请求
    response = requests.get(url,headers=HEADERS,params=params)
    # 把获取到的网页保存到本地
    with open('search.html', 'w', encoding='utf-8') as f:
        f.write(response.content.decode('utf-8'))

# 解析网页
def parse_search_result():
    # 打开文件,读取文件
    with open('search.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 基础url
        base_url = 'https://www.iwurexs.net/'
        # 初始化lxml
        soup = BeautifulSoup(content,'lxml')
        # 获取目标节点
        a_list = soup.find_all('table',attrs={'class':'grid'})[0].find_all('a')
        url_list = [base_url + a['href'] for a in a_list]
        text_list = [a.string for a in a_list]
        # 选择要爬取的小说
        for i,text in enumerate(text_list):
            print('当前小说名为:',text)
            decision = input('是否爬取它(只能选择一本),Y/N:')
            if decision == 'Y':
                return url_list[i],text


# 请求目标小说网站
def get_target_book(url):
    # 请求
    response = requests.get(url,headers=HEADERS)
    # 保存源码
    with open('book.html', 'w', encoding='utf-8') as f:
        f.write(response.content.decode('utf-8'))

# 解析章节网页
def parse_chapter(base_url):
    # 打开文件,读取内容
    with open('book.html', 'r', encoding='utf-8') as f:
        content = f.read()
        # 初始化
        soup = BeautifulSoup(content,'lxml')
        # 解析
        # 获取最后一个div标签
        div_label = soup.find_all('div',attrs={'class':'showBox'})[-1]
        # 获取所有a标签
        a_list = div_label.find_all('a')
        # 获取内容
        url_list = [base_url+a['href'] for a in a_list]
        text_list = [a.string for a in a_list]
        # 返回结果
        return url_list,text_list

# 请求小说页面
def get_content(url,title):
    # 请求
    response = requests.get(url,headers=HEADERS)
    # 获取源码
    content = response.content.decode('utf-8')
    # 初始化
    soup = BeautifulSoup(content,'lxml')
    # 解析
    text_list = list(soup.find_all('div',attrs={'id':'content'})[0].stripped_strings)
    # 后处理
    # 首先,把第一个和最后一个的广告信息去掉
    text_list = text_list[1:-1]
    # 其次,把里面的空白字符和\xa0去掉
    text_list = [text.strip().replace('\xa0','') for text in text_list]
    # 最后,写入文件即可
    with open(title+'.txt','w',encoding='utf-8') as g:
        for text in text_list:
            g.write(text+'\n')

if __name__ == '__main__':
    # 第一步,获取到搜索页面的源码
    # get_search_result()
    # 第二步,进行解析
    target_url,name = parse_search_result()
    # 第三步,请求目标小说页面
    get_target_book(target_url)
    # # 第四步,解析章节网页
    url_list,text_list = parse_chapter(target_url)
    for url,title in zip(url_list,text_list):
        # 第五步,请求小说具体的某个章节并直接解析
        get_content(url,title)
        break

3. 总结

​ 本次实战主要目的还是帮助大家熟悉bs4这个库的使用技巧,实战只是顺带的,懂得如何运行这个工具比懂得如何爬取一个网站更加重要。

​ 除此之外,不难看出,lxml库更像一个从上到下的定位模式,你想要获取某一个标签,首先需要考虑其上某个更加具体的标签;而bs4则更直接,如果你要获取的标签比较特别,可以直接定位它,而无需通过其他关系来确定

​ 下一篇,开始讲解如何解决动态网页,即selenium库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/85059.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Air780EG —— 合宙4G定位解决方案

定位模式: 外部单片机控制模式(常见于AT固件客户): 开机 -> 搜星 -> 定位成功 -> 上报 -> 关机 780E自行控制模式(常见于二次开发客户,AT用户也可以使用): 开机 -> 搜星 -> 定位成功 -> 模块休眠,关闭GP…

C++新经典01--函数递归

函数的递归 #include <stdio.h> void diguifunc() {printf("diguifunc()函数执行\n");diguifunc();//自己调用自己 }void main(){diguifunc(); }把程序执行起来&#xff0c;等几秒钟&#xff0c;可以看到&#xff0c;屏幕不断滚动并输出如下内容&#xff1a; …

AP9235 dc-dc升压恒流电源驱动IC 2000ma SOT23-6

概述 AP9235B 系列是一款固定振荡频率、恒流输出的升压型DC/DC转换器&#xff0c;非常适合于移动电话、PDA、数码相机等电子产品的背光驱动。输出电压可达30V &#xff0c;3.2V输入电压可以驱动六个串联LED&#xff0c; 2.5V输入电压可以驱动两路并联LED&#xff08;每路串联…

Android Studio调试出现错误时,无法定位错误信息解决办法

做项目时运行项目会出现问题&#xff0c;但是找不到具体位置&#xff0c;如下图所示&#xff1a;感觉是不是很懵逼~&#xff0c;Log也没有显示是哪里的问题 解决方案&#xff0c;在右侧导航栏中选择Gradle——app——build&#xff0c;然后点击运行 运行结果如下&#xff0c;很…

YOLO目标检测算法调试过程学习记录

先前已经完成过YOLO系列目标检测算法的调试过程&#xff0c;今天主要是将所有的调试加以总结 这里的conda环境就不再赘述了&#xff0c;直接使用requirement.txt文件的即可&#xff0c;也可以参考YOLOX的配置过程5 数据集处理 YOLOv5有自己的数据集格式&#xff0c;博主的数据…

live555在Windows WSL2中编译、运行,搭建RTSP流服务器

文章目录 1. 背景2. 实施步骤2.1 下载live555安装包2.2 解压压缩包2.3 编译源码2.3 安装ffmpeg2.4 安装opencv-python2.5 视频文件格式转换2.6 启动推流2.6 安装VLC&#xff0c;验证 3. 用opencv-python接口接收视频流参考 1. 背景 想要通过RTSP往opencv的接口中推流&#xff…

选择靠谱商城系统的重要性

电子商务的蓬勃发展&#xff0c;越来越多的企业和商家开始进入电商领域&#xff0c;希望通过搭建自己的网上商城来实现业务增长和利润提升。然而&#xff0c;在选择合适的商城系统时&#xff0c;很多人往往会忽视靠谱性这一关键因素。下面就选择靠谱商城系统的重要性作一些简单…

DataSecurity Plus:守护企业数据安全的坚实屏障

在数字化时代&#xff0c;数据被誉为企业最重要的资产之一。然而&#xff0c;随着大数据的兴起和信息的日益增长&#xff0c;企业面临着前所未有的数据安全挑战。为了应对这些挑战&#xff0c;数据安全管理变得至关重要。在这个领域&#xff0c;ManageEngine的DataSecurity Plu…

一篇文章教你自动化测试如何解析excel文件?

前言 自动化测试中我们存放数据无非是使用文件或者数据库&#xff0c;那么文件可以是csv&#xff0c;xlsx&#xff0c;xml&#xff0c;甚至是txt文件&#xff0c;通常excel文件往往是我们的首选&#xff0c;无论是编写测试用例还是存放测试数据&#xff0c;excel都是很方便的。…

【Linux】进程间通信之信号机制2

文章目录 信号阻塞代码验证验证信号的阻塞验证信号的阻塞不影响信号注册验证可靠信号不会丢信号&#xff0c;不可靠信号会丢信号验证9号和19号信号不能被阻塞 用信号解决僵尸进程volatile关键字 信号阻塞代码验证 在上篇详解信号机制的博文中&#xff0c;我们提到了设置阻塞位…

Vue-9.集成(.editorconfig、.eslintrc.js、.prettierrc)

介绍 同时使用 .editorconfig、.prettierrc 和 .eslintrc.js 是很常见的做法&#xff0c;因为它们可以在不同层面上帮助确保代码的格式一致性和质量。这种组合可以在开发过程中提供全面的代码维护和质量保证。然而&#xff0c;这也可能增加一些复杂性&#xff0c;需要谨慎配置…

一文详解4种聚类算法及可视化(Python)

在这篇文章中&#xff0c;基于20家公司的股票价格时间序列数据。根据股票价格之间的相关性&#xff0c;看一下对这些公司进行聚类的四种不同方式。 苹果&#xff08;AAPL&#xff09;&#xff0c;亚马逊&#xff08;AMZN&#xff09;&#xff0c;Facebook&#xff08;META&…

【Java】Java如何生成随机数?

文章目录 前言一、Random类介绍二、Random类生成随机数1.生成随机数2.nextInt()方法 三、使用场景四、官方提示总结 前言 我们在学习 Java 基础时就知道可以生成随机数&#xff0c;可以为我们枯燥的学习增加那么一丢丢的乐趣。本文就来介绍 Java 随机数。 一、Random类介绍 …

docker的资源控制及docker数据管理

文章目录 docker的资源控制及docker数据管理一.docker的资源控制1.CPU 资源控制1.1 资源控制工具1.2 cgroups有四大功能1.3 设置CPU使用率上限1.4 进行CPU压力测试1.5 设置50%的比例分配CPU使用时间上限1.6 设置CPU资源占用比&#xff08;设置多个容器时才有效&#xff09;1.6.…

合宙Air724UG LuatOS-Air LVGL API--简介

为何是 LVGL LVGL 是一个开源的图形库&#xff0c;它提供了创建嵌入式 GUI 所需的一切&#xff0c;具有易于使用的图形元素、漂亮的视觉效果和低内存占用的特点。 LVGL特点&#xff1a; 强大的 控件 &#xff1a;按钮、图表、列表、滑动条、图像等 高级图形引擎&#xff1a;动…

【Visual Studio】生成.i文件

环境 VS版本&#xff1a;VS2013 问题 如何生成.i预编译文件&#xff1f; 步骤 1、打开VS项目属性&#xff0c;打开C/C\预处理器页面&#xff0c;【预处理到文件】选择是&#xff0c;开启。 2、生成文件如下。 3、正常编译需要关闭此选项。

ORB-SLAM2学习笔记9之图像帧Frame

文章目录 0 引言1 Frame类1.1 构造和重载函数1.1.1 双目相机1.1.2 RGBD相机1.1.3 单目相机 1.2 成员函数1.2.1 特征点去畸变1.2.2 特征点网格分配1.2.3 双目匹配1.2.4 RGBD相机深度计算 1.3 成员变量 2 Frame类的用途 0 引言 ORB-SLAM2学习笔记7详细了解了System主类和多线程和…

安卓图形显示系统

Android图形显示系统 Android图形显示系统是Android比较重要的一个子系统&#xff0c;和很多其他子系统的关联紧密。 Android图形系统比较复杂&#xff0c;这里我们从整体上理一遍&#xff0c;细节留待后期再去深入。Android图形系统主要包括以下几个方面&#xff1a; - 渲染…

Shell编程及自动化运维实现

Linux Shell编程及自动化运维实现 变量 Linux Shell编程及自动化运维实现 判断 Linux Shell编程及自动化运维实现 循环 Linux Shell编程及自动化运维实现 数组和函数 Linux Shell编程及自动化运维实现 三剑客 Linux Shell编程及自动化运维实现 综合实战 什么是…

API 接口选择那个?RESTful、GraphQL、gRPC、WebSocket、Webhook

大家好&#xff0c;我是比特桃。目前我们的生活紧紧地被大量互联网服务所包围&#xff0c;互联网上每天都有数百亿次API调用。API 是两个设备相互通讯的一种方式&#xff0c;人们在手机上每次指尖的悦动&#xff0c;背后都是 API 接口的调用。 本文将列举常见的一些 API 接口&…