线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建—

线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建——学习笔记

用法1：map函数


with ThreadPoolExecutor() as pool:        
        results = pool.map(craw,utls)
        for result in results:
            print(result)

1.Scrapy框架：

五大结构：引擎，下载器，爬虫，调度器，管道，爬虫

其中引擎，下载器，调度器。不用我们写。剩下的要我们写。

代码部分的了解：这个是自己创建一个爬虫（用scrapy）叫“xiao”

import scrapy


class XiaoSpider(scrapy.Spider):
    name = "xiao"
    allowed_domains = ["4399.com"]
    start_urls = ["https://4399.com/flash/"]

    def parse(self, response):
        #print(response.text)
        #获得游戏名
        # txt = response.xpath("//ul[@class = 'n-game cf']/li/ a/b/text()")
        # #提取信息内容
        # txt = txt.extract()
        # print(txt)
        #分块提取
        li_list = response.xpath("//ul[@class = 'n-game cf']/li")
        for list in li_list:
            #name = list.xpath("./a/b/text()").extract()#返回的一个列表，拿到字符串要加[0]
            name = list.xpath("./a/b/text()").extract_first()#拿到第一个，如果没有返回None
            leibie = list.xpath("./em/a/text()").extract_first()#拿到第一个，如果没有返回None
            print(name,leibie)

这个scrapy是拿终端跑的。

步骤：
1.

其中代码中，scrapy给我们了，寻找的方法

response.xpath(),respon,css()。

没有见过的是：

leibie = list.xpath("./em/a/text()").extract_first()

的extract（），这个就是

提取信息内容

学习笔记加油！！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/408026.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建——学习笔记

相关文章

＜网络安全＞《50 网络攻防专业课＜第十四课 - 华为防火墙的使用（3）＞

Spring的优点

【图论】【堆优化的单源路径】LCP 20. 快速公交

【第八天】C++异常的抛出、捕获以及标准异常库

职业规划，电气工程师的岗位任职资格

【Golang】Golang使用embed加载、打包静态资源文件

freemarker模板引擎结合node puppeteer库实现html生成图片

Spring篇----第一篇

二进制部署k8s集群之cni网络插件

高速DRAM的training

Linux之JAVA环境配置jdkTomcatMySQL

【蓝桥杯省赛真题27】python纸张数量中小学青少年组蓝桥杯比赛python编程省赛真题解析

前后端分离vue.js+nodejs学生考勤请假系统 _fbo36

备考2025年考研数学（三）：2015-2024年考研数学真题练一练

科普GAI：走进生成式人工智能的世界

vue3+js 实现记住密码功能

Docker容器实战

黑马JavaWeb开发跟学(一)Web前端开发HTML、CSS基础

蓝桥杯14届计算思维国赛U8组包含真题和答案

2_怎么看原理图之协议类接口之UART笔记