Python爬虫协程批量下载图片

import aiofiles
import aiohttp
import asyncio
import requests
from lxml import etree
from aiohttp import TCPConnector


class Spider:
    def __init__(self, value):
        # 起始url
        self.start_url = value

    # 下载单个图片
    @staticmethod
    async def download_one(url):
        name = url[0].split("/")[-1][:-4]
        print("开始下载", url, name)
        headers = {
            'Host': 'file.jiutuvip.com',
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, '
                          'like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Accept-Encoding': 'gzip, deflate, br, zstd',
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1',
            'Sec-Fetch-Dest': 'document',
            'Sec-Fetch-Mode': 'navigate',
            'Sec-Fetch-Site': 'none',
            'Sec-Fetch-User': '?1',
            'TE': 'trailers'
        }
        # 发送网络请求
        async with aiohttp.ClientSession(connector=TCPConnector(ssl=False)) as session:
            async with session.get(url=url[0], headers=headers) as resp:  # 相当于 requests.get(url=url[0], headers=head)
                # await resp.text() => resp.text
                content = await resp.content.read()  # => resp.content
                # 写入文件
                async with aiofiles.open('./imgs/' + name + '.webp', "wb") as f:
                    await f.write(content)
        print("下载完毕")

    # 获取图片的url
    async def download(self, href_list):
        for href in href_list:
            async with aiohttp.ClientSession(connector=TCPConnector(ssl=False)) as session:
                async with session.get(url=href) as child_res:
                    html = await child_res.text()
                    child_tree = etree.HTML(html)
                    src = child_tree.xpath("//div[@class='article-body cate-6']/a/img/@src")  # 选手图片地址 url 列表
                    await self.download_one(src)

    # 获取图片详情url
    async def get_img_url(self, html_url):
        async with aiohttp.ClientSession(connector=TCPConnector(ssl=False)) as session:
            async with session.get(url=html_url) as resp:
                html = await resp.text()
                tree = etree.HTML(html)
                href_list = tree.xpath("//div[@class='uk-container']/ul/li/a/@href")  # 选手详情页 url 列表
                print(href_list)
                await self.download(href_list)

    # 页面总页数
    @staticmethod
    def get_html_url(url):
        page = 2
        response = requests.get(url=url)
        response.encoding = "utf-8"
        tree = etree.HTML(response.text)
        total_page = tree.xpath("//*[@class='pages']/a[12]/text()")  # 页面总页数
        print(total_page)
        html_url_list = []
        while page <= 4:  # int(total_page[0])  # 只取第 2、3、4 页
            next_url = f"https://www.yeitu.com/meinv/xinggan/{page}.html"
            html_url_list.append(next_url)
            page += 1
        print(html_url_list)
        return html_url_list

    async def main(self):
        # 拿到每页url列表
        html_url_list = self.get_html_url(url=self.start_url)  # url列表
        tasks = []
        for html_url in html_url_list:
            t = asyncio.create_task(self.get_img_url(html_url))  # 创建任务
            tasks.append(t)
        await asyncio.wait(tasks)


if __name__ == '__main__':
    url = "https://www.yeitu.com/meinv/xinggan/"
    sp = Spider(url)
    # loop = asyncio.get_event_loop()
    loop = asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    loop.run_until_complete(sp.main())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/680246.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【前端 - Vue】Vuex基础入门,创建仓库的详细步骤

&#x1f680; 个人简介&#xff1a;6年开发经验&#xff0c;现任职某国企前端负责人&#xff0c;分享前端相关技术与工作常见问题~ &#x1f49f; 作 者&#xff1a;前端菜鸟的自我修养❣️ &#x1f4dd; 专 栏&#xff1a;vue从基础到起飞 &#x1f308; 若有帮助&…

云手机定位切换,带来的不只是便利

当我们利用云手机的定位切换时&#xff0c;首先感受到的确实是极大的便利。 我们就像是拥有了瞬间移动的超能力&#xff0c;可以自由地在不同城市、甚至不同国家的虚拟场景中穿梭。无论是为了更精准地获取当地的信息&#xff0c;比如实时的交通状况、特色店铺等&#xff0c;还…

Redis位图

简介 在我们平时开发过程中&#xff0c;会有一些bool型数据需要存取&#xff0c;比如用户一年的签到记录&#xff0c;签了是1&#xff0c;没签是0&#xff0c;要记录365天。如果使用普通的key/value&#xff0c;每个用户要记录365个&#xff0c;当用户上亿的时候&#xff0c;需…

Git存储库的推送保护

Git存储库的推送保护 昨天有一个提交一直提示&#xff1a;Push rejected Push rejected Push master to origin/master was rejected by remote起初在网络上找各种解决办法&#xff0c;先列举以下找到的各类方法 提交用户的用户名和邮箱与Git不一致&#xff0c;这个只需要通…

MATLAB设计ATF教程

打开Control System Designer 在MATLAB命令行窗口输入sisotool 出现如下Control System Designer窗口 基础Compensator 打开工具后&#xff0c;Compensator初始为1&#xff0c;需要按照需求进行设计。本示例的传递函数为&#xff1a; 基于上述传递函数的Bode图进行后续的设计…

SecureFX[po破] for Mac FTP/SSH传输工具[解] 安装教程

Mac分享吧 文章目录 效果一、准备工作二、开始安装注意&#xff1a; SecureFX 和 SecureCRT 不能同时都放在应用程序中安装&#xff0c;一定要一个在应用程序中&#xff0c;另一个在桌面上使用&#xff01;否则会导致一个操作不成功&#xff01;将SecureFX软件拖到桌面&#x…

Docker桥接网络分析

前言 《虚拟局域网(VLAN)》一文中描述了虚拟网卡、虚拟网桥的作用&#xff0c;以及通过iptables实现了vlan联网&#xff0c;其实学习到这里自然就会联想到目前主流的容器技术&#xff1a;Docker&#xff0c;因此接下来打算研究一下Docker的桥接网络与此有何异同。 猜测 众所周知…

将Java程序打包为为.exe文件

将Java程序打包为为.exe文件 将Java程序打包为为.exe文件分为俩个步骤&#xff1a; 1、将Java程序打包成Jar包&#xff08;此时就可复制桌面便于使用&#xff09; 2、打包为.exe文件&#xff08;需要借助工具&#xff09; 一、打包为.exe文件 1. file -> Project Structure…

linux网络基础 DHCP和ftp 02

一、DHCP DHCP&#xff1a;动态主机配置协议。 1、DHCP原理 服务端和客户端 服务端&#xff1a;提供某种特定的服务客户端&#xff1a;使用这种特定的服务c/s client/servre 客户端 服务端 应用程序之间通过端口进行通信&#xff0c;实现c/sb/s browser/server 浏览器 服务…

深度学习——卷积神经网络(CNN)

深度学习 深度学习就是通过多层神经网络上运用各种机器学习算法学习样本数据的内在规律和表示层次&#xff0c;从而实现各种任务的算法集合。各种任务都是啥&#xff0c;有&#xff1a;数据挖掘&#xff0c;计算机视觉&#xff0c;语音识别&#xff0c;自然语言处理等。‘ 深…

生成式AI时代已来,你是否做好了准备?

面对正在来临的生成式AI时代&#xff0c;从个人到企业&#xff0c;都应该为之做好充足的准备。 生成式AI时代的黎明已经来临 “生成式AI时代的黎明已经来临&#xff0c;它将会改变我们每个人的生活和工作方式、改变每一个行业。”在近日召开的2024亚马逊云科技中国峰会上&#…

甲方的苛刻,是成就优质作品的必要条件,辩证看待。

取其上、得其中&#xff0c;取其中&#xff0c;得其下&#xff0c;取其下、则无所的。在进行B端界面的设计的时候&#xff0c;设计师除了自我加压外&#xff0c;还少不了客户的严格要求&#xff0c;贝格前端工场为大家辩证分析一下。 一、严格产出高品质作品 甲方提出苛刻的要…

vue改造四级树状可输入table

vue改造四级树状可输入table <template><div class"dimension_wary"><div class"itemHeader"><div class"target"></div><div class"sort">X2</div><div class"weight">…

使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;AI大模型部署与应用专栏&#xff1a;点击&#xff01; &#x1f916;Ollama部署LLM专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年6月4日10点50分 &#x1f004;️文章质量&#xff1…

2024年工业设计与智能城市国际会议(ICIDSC 2024)

2024 International Conference on Industrial Design and Smart Cities 【1】大会信息 大会时间&#xff1a;2024-07-26 大会地点&#xff1a;中国三亚 截稿时间&#xff1a;2024-07-12(以官网为准&#xff09; 审稿通知&#xff1a;投稿后2-3日内通知 会议官网&#xff1a;…

从实战案例来学习结构化提示词(一)

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之…

python MNE EEG:从预处理到绘制事件相关光谱扰动(ERSP/ERDS)

** 参考&#xff1a;https://weisihong9.github.io/2024/05/15/MNE_EEG/ **

RabbitMQ docker安装及使用

1. docker安装RabbitMQ docker下载及配置环境 docker pull rabbitmq:management # 创建用于挂载的目录 mkdir -p /home/docker/rabbitmq/{data,conf,log} # 创建完成之后要对所创建文件授权权限&#xff0c;都设置成777 否则在启动容器的时候容易失败 chmod -R 777 /home/doc…

【C++练级之路】【Lv.24】异常

快乐的流畅&#xff1a;个人主页 个人专栏&#xff1a;《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火&#xff0c;在为久候之人燃烧&#xff01; 文章目录 引言一、异常的概念及定义1.1 异常的概念1.2 异常的定义 二、异常的使用2.1 异常的栈展开匹配2.2 异常的重新…

vs2019 c++20 规范 STL库中关于时间的模板 ratio<T,U> , duration<T,U> , time_point<T,U>等

(探讨一)在学习线程的时候&#xff0c;一些函数会让线程等待或睡眠一段时间。函数形参是时间单位&#xff0c;那么在 c 中是如何记录和表示时间的呢&#xff1f;以下给出模板简图&#xff1a; &#xff08;2 探讨二&#xff09;接着给出对模板类 duration_values 的成员函数的测…