python爬虫进阶篇(异步)

        学习完前面的基础知识后,我们会发现这些爬虫的效率实在是太低了。那么我们需要学习一些新的爬虫方式来进行信息的获取。

异步

        使用python3.7后的版本中的异步进行爬取,多线程虽然快,但是异步才是爬虫真爱。

基本概念讲解

1.什么是异步?

        异步是指在程序执行过程中,当遇到耗时的操作时,不会等待这个操作完成才继续执行后面的代码,而是先去执行其他的操作,等到耗时的操作完成后再处理它的结果。这种方式能够提高程序的并发性响应性。在传统的同步编程中,当程序执行到一个耗时的操作时(比如文件读写、网络请求等),程序会被阻塞,直到这个操作完成才会继续往下执行。这样会导致程序不能充分利用计算资源,同时也会降低程序的响应速度。而在异步编程中,当遇到耗时操作时,程序会先切换到执行其他任务,等到耗时操作完成后再回来处理结果。这样可以让程序在等待耗时操作的同时继续执行其他任务,提高了程序的并发能力和整体性能。

        Python中的异步编程通常使用async/await关键字来定义异步事件,配合asyncio模块和一些第三方库(比如aiohttp、aiofiles等)来实现异步IO操作。异步编程在网络编程、Web开发、爬虫等领域有着广泛的应用。

并发性

        并发性是指在同一时间段内,有多个任务在同时执行。在计算机领域,这通常是指多个线程或进程在同时执行,从而提高了程序的效率和性能。在传统的单线程编程中,程序只能按照顺序执行代码,不能同时执行多个任务,这会导致程序效率低下,特别是当遇到大量IO操作时更为明显。

        而在多线程或多进程编程中,多个任务可以同时运行,从而可以充分利用计算机的多核处理器和其他硬件资源,提高了程序的效率和性能。同时,多线程/多进程编程也可以使得程序更加稳定,因为如果某个线程/进程崩溃或阻塞,其他线程/进程仍然可以继续执行。
        需要注意的是,并发性不同于并行性。并发性是指多个任务在同一时间段内交替执行,而并行性是指多个任务在同一时刻同时执行。并行性需要硬件支持,例如多核处理器、分布式系统等。

I/O操作的概念
        I/O操作是指输入/输出操作,是计算机领域中用来描述数据从外部设备(如磁盘、网络、键盘、显示器等)到内存或相反方向的数据传输过程。在计算机程序中,I/O操作通常涉及到读取或写入文件、网络通信、用户输入输出等操作。

常见的I/O操作
  • - 从磁盘读取文件到内存
  • - 从网络接收数据
  • - 向磁盘写入文件
  • - 向网络发送数据
  • - 从键盘获取用户输入
  • - 向屏幕输出数据

异步与多线程的区别

        多线程和异步都可以提高程序的并发性和响应性,但在不同的场景下可能会有不同的表现。

        多线程适合CPU密集型计算任务,因为它可以充分利用计算机的多核处理器,同时执行多个任务,从而提高程序的效率和性能。但是,在多线程编程中,线程之间需要共享内存,这可能会带来线程安全等问题,需要开发者自己管理线程之间的同步和互斥。

        异步适合I/O密集型任务,因为它可以在等待I/O操作的同时,继续执行其他任务,从而充分利用时间片,提高程序的并发性和响应性。异步编程通常使用事件循环机制,在一个线程中执行多个任务,并通过回调函数等方式处理异步事件。但是,在异步编程中,需要使用特定的异步库和语法,如async/await关键字、协程等,对新手来说有一定的学习。

python中的异步

准备工作

导包,准备好工具

异步
pip install asyncio
异步的文件操作
pip install aiofiles
异步的网路请求
pip install aiohttp

装好之后我们需要学习一些基本的方法。

学习基本语法

1.asyncio的使用

  1. await关键字:

    • await用于暂停当前协程的执行,等待一个异步操作的完成,并获取其结果。
    • 在使用await时,必须将其放在一个async修饰的函数内部,以指示该函数是一个协程函数。
    • await只能在协程函数内部使用,不能在普通函数或全局作用域中使用。
  2. async关键字:

    • async用于修饰一个函数,表示该函数是一个协程函数。
    • 协程函数可以通过await关键字来暂停执行,并在等待异步操作完成后继续执行。
    • 协程函数内部可以包含多个await语句,用于等待不同的异步操作。
  3. asyncio.wait()函数:

    • asyncio.wait()函数用于等待一组协程的完成。
    • 该函数接受一个可迭代对象(如列表或集合),其中包含要等待的协程对象。
    • asyncio.wait()函数返回两个集合,分别表示已完成和未完成的任务。
  4. loop.run_until_complete()方法:
    • loop.run_until_complete()方法用于执行一个协程,直到它完成。
    • 在使用该方法时,必须将协程对象作为参数传递给它。
    • run_until_complete()方法会阻塞当前线程,直到协程执行完成或发生异常。
  5. loop.create_task()方法:
    • loop.create_task()方法用于创建一个协程任务,并将它加入事件循环中等待执行。
    • 该方法接受一个协程函数作为参数,并返回一个Task对象。
    • Task对象表示一个可调度的协程,可以通过await语句来等待其执行完成。

aiofiles

aiofiles是一个用于在异步代码中进行文件 I/O 操作的库。它提供了异步版本的文件读取和写入操作,与标准库中的open()函数不同,aiofiles中的函数返回awaitable对象,可以在异步函数中使用await关键字来等待文件操作完成。

import asyncio
import aiofiles

async def read_and_print_file():
    async with aiofiles.open('example.txt', mode='r') as file:
        content = await file.read()
        print(content)

async def write_to_file():
    async with aiofiles.open('example.txt', mode='w') as file:
        await file.write('Hello, aiofiles!')

# 在事件循环中执行异步文件读写操作
async def main():
    await write_to_file()
    await read_and_print_file()

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

记得文件操作属于i/o阻塞

aiohttp

aiohttp是一个用于在异步代码中进行HTTP请求的库。它提供了异步的HTTP客户端和服务器,能够高效地处理大量的并发请求。和request的使用一样

import aiohttp
import asyncio

async def fetch_content(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    url = 'https://jsonplaceholder.typicode.com/posts/1'
    content = await fetch_content(url)
    print(content)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

实战:只看不练假把式,直接干!基础没啥讲的,爬虫会用就行

这次案例,随意教学了,找一个新的网站实现爬取。中间出现错误的情况我也会直接列出来(我也是菜鸡,只是帮助大家入门的)。给大家分享一下我的思路和解决。

本博客只用于教学爬虫,决定爬取一个:

极简壁纸_海量电脑桌面壁纸美图_4K超高清_最潮壁纸网站

合理使用,这个网站是免费的并且还是免登录(良心网站,请求一两次就行,别一直搞(哭了,现在看我写这句话真是讽刺)),较为容易(容易个der,给我看懵逼了)

兄弟们这个案例当乐子看。

1.准备工作,了解网站结构,查看是否可以直接爬取。

这个主要是看源码中是否和前端调试工具中的结构一样,我们发现,调试工具中有的 是一个a中存在一个链接,但是我们点击打开发现是一个404页面

此时我以为这个是无效链接,然后我直接去看了网络请求,发现网络请求是可以获得图片的,但是在找url的关系时,我发现直接请求a中的地址也是可行的。

我们试一下发送请求,看看能不能获取到这张图片。

直接一顿操作

import requests


url = "https://api.zzzmh.cn/bz/v3/getUrl/c071cdc46f0c4867a1d52d0cb51fc6d629"

headers = {
    
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}
response = requests.get(url,headers=headers).content

print(response)

我们发现出现了403界面源码,这就有点不对劲了。

那么我们学过的东西无法解决,表明需要学习新的知识了

在网页请求的头部中,包含了一个名为"Referer"的字段,这个字段通常用来标识当前请求是从哪个页面跳转过来的,即上一个网页的地址。这对于网站分析和统计访问来源非常有用,同时也可以在一定程度上用于防盗链和安全验证。在实际开发中,服务器端可以通过检查"Referer"字段来确定请求的来源,并做出相应的处理,例如允许或拒绝特定来源的请求。同时,网站管理员也可以利用这个字段来分析用户的访问行为和流量来源,为网站运营和优化提供参考依据。

搜嘎,现在我们在headers中加入Referer来测试一下

直接出现,现在把他写入文件中试一下,

import requests


url = "https://api.zzzmh.cn/bz/v3/getUrl/c071cdc46f0c4867a1d52d0cb51fc6d629"

headers = {
    "Referer":"https://bz.zzzmh.cn/",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}
response = requests.get(url,headers=headers).content

with open("壁纸.jpg",'wb') as file:
    file.write(response)

直接成功:网页请求也是可行的,但是在拼接url的时候还得来到这里。

为什么我们点击页面链接发现时进入一个404呢,我感觉是因为点击后的并没有发送请求,无法访问。

如何批量获取这些数据? 我们复制链接进源码看一下,发现并没有这段链接,那么这个需要找js代码,观察是否需要进行解密。寄了,我看蒙蔽了,大哥这是个人站?这么难吗?给我直接看蒙蔽了,js学是学过,但是那都是基础,后悔了早知道选哪个需要登录的了,不行我都干了四千多字了,怎么说也得爬几个。哥几个别爬了,我找半小时了。太难看了,我纯纯弱智,找这个爬。这反爬比爬网易云免费音乐还难,看这个过过眼瘾。看不懂没关系,我也不会。等我后续把js逆向学明白再带大家做这个。(其实后面介绍的selenium完全可以爬取这些链接,但是缺点就是速度太慢了。)
爬虫案例1:js逆向获取极简壁纸的高清壁纸_爬虫爬取极简壁纸_活火石的博客-CSDN博客

补充,使用自动化工具也可以爬取,就是速度太慢了。(其实也不算很慢,这里就打开的时候比较慢 有2秒等待时间,但是获取图片采用的是异步获取和处理,速度还是很快的。)

import time
from selenium.webdriver.common.by import By
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import requests

import asyncio
import aiofiles
import aiohttp

headers = {
    'Referer': 'https://bz.zzzmh.cn/',
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}
async def download(href,count):
    print(f"第{count}图片开始缓存")
    try:
        async with aiohttp.ClientSession() as session:
            async with session.get(href,headers=headers) as p:
                data = await p.read()
                async with aiofiles.open(f"D:\桌面\pythoncode\爬虫案例\Selenium入门\极简壁纸\{count}.jpg",'wb') as file:
                    await file.write(data)
                print(f"第{count}图片缓存成功")
    except:
        print(f"第{count}图片缓存失败")


async def main():
    web = webdriver.Chrome()
    web.get("https://bz.zzzmh.cn/index")
    time.sleep(3)
    img_List  = web.find_elements(by="xpath",value='//div[@class="img-box"]')
    count = 1
    task = []
    for i in img_List:
        src = i.find_element(by="xpath",value='./span[@class="down-span"]/a')
        src= src.get_attribute('href')
        print(src)
        t = asyncio.create_task(download(src,count))
        task.append(t)
        count+=1
    return await asyncio.wait(task)
if __name__=="__main__":
    asyncio.run(main())    


案例2

上面那个案例给我整吐了,不行了,换回老朋友笔趣阁。

神秘复苏最新章节_神秘复苏全文在线阅读_佛前献花的小说_笔趣阁

1.查看网页源代码和检查中的链接是否一致 

直接爬取每个章节的内容,然后装填进一个数组中,我们爬取这些章节小说可以使用异步来进行。所以现在只需要解析出链接,然后交给异步即可。

注意此时的编码方式

获取请求链接
 

import requests
import aiofiles
import aiohttp
from lxml import etree
import asyncio




async def main():
    url = "https://www.bige3.cc/book/66/"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    }
    response = requests.get(url)
    response.encoding = 'utf-8'
    en = etree.HTML(response.text)
    title_List = en.xpath("//div[@class='listmain']/dl//dd")
    print(title_List)
if __name__=="__main__":
    asyncio.run(main())

解析链接和上个一样,区别在于此次获取每个章节的内容采用aiohttp 写入文件使用aiofiles 需要再阻塞前加入等待 await

装填链接

import requests
import aiofiles
import aiohttp
from lxml import etree
import asyncio



async def download(url):
    pass


async def main():
    url = "https://www.bige3.cc/book/66/"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    }
    response = requests.get(url)
    response.encoding = 'utf-8'
    en = etree.HTML(response.text)
    task = []
    title_List = en.xpath("//div[@class='listmain']/dl//dd")
    for i in title_List:
        src = i.xpath("./a/@href")[0]
        src = "https://www.bige3.cc/" + src
        t = asyncio.create_task(download(src))
        task.append(t)
    return await asyncio.wait(task)
if __name__=="__main__":
    asyncio.run(main())

 我们要注意asyncio.wait()这个过程需要等待所以加入了await 

下载内容

直接看界面,源码中存在小说内容,所以直接爬取就行。

 直接爬取:注意i/o阻塞的位置加入await即可,就是和之前的相比加入了一个async而已,没啥区别

import requests
import aiofiles
import aiohttp
from lxml import etree
import asyncio

async def download(url):
    try:
        print("小说开始下载")
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as r:
                response = await r.text()
                en = etree.HTML(response)
                file_Title = en.xpath('//h1[@class="wap_none"]/text()')[0]
                file_Content = en.xpath('//*[@id="chaptercontent"]/text()')
                file_Content = ("".join(file_Content)).replace("\u3000","\n")
                file_Title = f"D:\桌面\pythoncode\爬虫教学\神秘复苏\{file_Title}.txt"
                async with aiofiles.open(file_Title,'w',encoding='utf-8') as file:
                    await file.write(file_Content)
                print("小说下载成功")
    except:
        print("下载失败")

async def main():
    url = "https://www.bige3.cc/book/66/"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    }
    response = requests.get(url)
    response.encoding = 'utf-8'
    en = etree.HTML(response.text)
    task = []
    title_List = en.xpath("//div[@class='listmain']/dl//dd")
    for i in title_List:
        src = i.xpath("./a/@href")[0]
        src = "https://www.bige3.cc/" + src
        t = asyncio.create_task(download(src))
        task.append(t)
    return await asyncio.wait(task)
if __name__=="__main__":
    asyncio.run(main())

直接轻轻松松爬取一本小说且顺序是有序的。期待下次更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/193719.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

八股文-Java方法的重载与重写

在 Java 中,重载和重写是两个关键的面向对象编程概念。重载通过方法的参数列表不同来区分同名方法,提供了更灵活的方法调用方式。而重写通过子类重新定义父类中已经存在的方法,实现了多态性的体现,让代码更具可扩展性和维护性。 重…

【云备份】配置加载文件模块

文章目录 配置信息设计配置文件加载cloud.conf配置文件单例模式的使用ReadConfigFile —— 读取配置文件GetInstance —— 创建对象其他函数的实现 具体实现cloud.confconfig.hpp 配置信息设计 使用文件配置加载一些程序运行的关键信息 可以让程序的运行更加灵活 配置信息&am…

基于单片机病房呼叫程序和仿真

如果学弟学妹们在毕设方面有任何问题,随时可以私信我咨询哦,有问必答!学长专注于单片机相关的知识,可以解决单片机设计、嵌入式系统、编程和硬件等方面的难题。 愿毕业生有力,陪迷茫着前行! 一、系统方案 1…

spring Cloud在代码中如何应用,erueka 客户端配置 和 服务端配置,Feign 和 Hystrix做高可用配置

文章目录 Eureka一、erueka 客户端配置二、eureka 服务端配置 三、高可用配置FeignHystrix 通过这篇文章来看看spring Cloud在代码中的具体应用,以及配置和注解; Eureka 一、erueka 客户端配置 1、Eureka 启禁用 eureka.client.enabledtrue 2、Eurek…

Redis深入理解-三次握手、槽位机制

Redis 节点之间的三次握手原理分析 比如多台 Redis 之间要建立集群,那么连接其中的一台 Redis 客户端,向其他 Redis 发送 meet 命令即可通知其他节点,那么发送 meet 命令给其他节点后,对方也会在内存中创建一个 ClusterNode 结构…

【shell】正则表达式和文本三剑客之grep和awk

目录 一、正则表达式 1.1用法 1.2表示字符匹配 1.3表示次数 1.4表示位置锚定 1.5表示分组或其他 1.6扩展正则表达式 二、grep命令 三、awk命令 3.1awk与vim的区别 3.2awk的语法 3.3基础用法 test1.提取磁盘的分区利用率 test2.提取用户名和uid号 test3.提取ip地址…

键盘打字盲打练习系列之刻意练习——1

一.欢迎来到我的酒馆 盲打,刻意练习! 目录 一.欢迎来到我的酒馆二.选择一款工具三.刻意练习 二.选择一款工具 俗话说:工欲善其事必先利其器。在开始之前,我们可以选择一款练习盲打的工具。打字软件有很多,还有专门练习打字的网站&…

docker 安装oracle 11,配置客户端远程连接

最近由于工作需要,oracle11数据库的导入导出,所以自己在电脑上模拟个数据库环境, 1.docker的安装,可以参考之前文档,也可以直接yum install 包名字安装 2.下载镜像 docker pull registry.cn-hangzhou.aliyuncs…

AMP State Evolution的计算:以伯努利高斯先验为例

AMP State Evolution (SE)的计算 t 1 t1 t1时, E ( t ) E [ X 2 ] \mathcal E^{(t)} \mathbb E [X^2] E(t)E[X2],SE的迭代式为 τ r ( t ) σ 2 1 δ E ( t ) E ( t 1 ) E ∣ η ( t ) ( X Z ) − X ∣ 2 , Z ∼ N ( 0 , τ r ( t ) ) \begin{a…

00TDI 这件红色大衣也太适合过年穿了

分享女儿的时尚穿搭—红色大衣 这款大衣非常厚实 摸起来很软糯的触感 复合了660-700g绵羊绒 厚实度堪比一件厚实的羽绒服 门禁处做了立体的爱心装饰 精致又可爱!!!

C++:对象模型和this指针

对象模型: 成员变量和成员函数分开存储 在C中,类内的成员变量和成员函数分开存储 只有非静态成员变量才属于类的对象上 空对象占用空间: 1字节 C编译器会给每个空对象也分配一个字节空间,是为了区分空对象占内存的位置 每个…

VSD Viewer for Mac(Visio绘图文件阅读器)

VSD Viewer for Mac版是mac上一款非常强大的Visio绘图文件阅读器,它为打开和打印Visio文件提供了简单的解决方案。可以显示隐藏的图层,查看对象的形状数据,预览超链接。还可以将Visio转换为包含图层,形状数据和超链接的PDF文档。 …

图像分类任务

本文记录 北京邮电大学 计算机学院的学习记录 什么是图像分类任务? 图像分类任务是计算机视觉中的核心任务,其目 标是根据图像信息中所反映的不同特征,把不同类别 的图像区分开来 图像分类任务有哪些难点呢? 语义鸿沟视角变化…

【Qt】之QSet使用

描述 QSet类是一个模板类&#xff0c;它提供基于散列表的集合。 QSet是Qt的通用容器类之一。它以未指定的顺序存储值&#xff0c;并提供非常快速的值查找。在内部,QSet是作为QHash实现的。 下面是一个带有QString值的QSet示例: QSet<QString> set;插入方式1&#xff…

MATLAB中fft与fftshift的区别

两者的区别在于&#xff1a; fft函数将时域信号转换为频域信号&#xff0c;即将信号从时间域转换为频率域。fftshift函数用于对fft计算结果进行移位操作&#xff0c;将频域信号的零频率分量移到频谱的中心&#xff0c;方便观察和处理。fftshift函数将fft计 算结果沿着中心点进…

【高效开发工具系列】MapStruct入门使用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

SpringBoot定时任务报错Unexpected error occurred in scheduled task原因及其解决方法(亲测有效)

问题 spring boot项目在线上一直正常运行没有错误&#xff0c;然后今天发生了报错&#xff0c;如图 这是一个定时器错误&#xff0c;发生这个报错 主要有两个原因 定时器编写的有错误Scheduled注解方式级别高于资源注入级别&#xff0c;导致了资源注入失败 以下是我的代码 …

livox 半固体激光雷达 gazebo 仿真 | 安装与验证

livox 半固体激光雷达 gazebo 仿真 | 安装与验证 livox 半固体激光雷达 gazebo 仿真 | 安装与验证livox 介绍安装验证 livox 半固体激光雷达 gazebo 仿真 | 安装与验证 livox 介绍 览沃科技有限公司&#xff08;Livox&#xff09;成立于2016年。为了革新激光雷达行业&#xf…

在拼多多,照见热气腾腾的平凡人生

文 | 螳螂观察 作者 | 易不二 内容丰富的《鲁迅日记》里&#xff0c;经常会出现“xx日晴&#xff0c;无事”的记载。 如果按照年份算&#xff0c;在被记载的日子里&#xff0c;每年鲁迅都有一二十天的时间是“无事”的状态。 很难想象&#xff0c;为人类历史文明前进照亮了…

用Elasticsearch搜索匹配功能实现基于地理位置的查询

1.Redis,MongoDB,Elasticsearch实现地理位置查询比较 1.1 Redis: 优点&#xff1a;Redis提供了地理空间索引功能&#xff0c;可以通过Geo数据类型进行地理位置查询。这使得Redis在处理地理位置查询时非常高效。 缺点&#xff1a; Redis的地理空间索引功能相对简单&#xff0…