爬虫入门到精通_实战篇7(Requests+正则表达式爬取猫眼电影)_ 抓取单页内容,正则表达式分析,保存至文件,开启循环及多线程

1 目标

猫眼榜单TOP100:https://www.maoyan.com/board
在这里插入图片描述

2 流程框架

  1. 抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。
  2. 正则表达式分析:根据HTML代码分析得到电影名称,主演,上映时间,评分,图片链接等信息。
  3. 保存至文件:通过文件的形式将结果保存,每一步电影一个结果一行json字符串。
  4. 开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度。

3 实战

1.抓取单页内容

import requests
from requests.exceptions import RequestException

# 提取单页内容,用try,except防止挂机
def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:#如果状态码为200,请求成功
            return  response.text
        return response.status_code  #请求失败,返回状态码结果
    except RequestException:
        return  None

def main():
    url = "https://www.maoyan.com/board/4"
    html = get_one_page(url)
    print(html)
if __name__ == '__main__':
    main()

url路径:下图可知:第一页offset = 0,第二页offset=10
在这里插入图片描述

respnse查看内容:Network 选项->筛选Doc
在这里插入图片描述
返回:
在这里插入图片描述
如果报了403状态码:
请求是加上headers

headers = {'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'}
#提取单页内容,用try,except方便找bug
def get_one_page(url):
    try:
        
        response = requests.get(url, headers=headers)#传入headers参数
        if response.status_code == 200:
            return response.text
        return response.status_code
    except RequestException:
        return None

2 正则表达式分析

根据HTML代码分析得到电影名称,主演,上映时间,评分,图片链接等信息。
HTML的结构:
在这里插入图片描述
红色箭头是需要提取的信息,正则表达式如下:

def parse_one_page(html):
    # 生成一个正则表达式对象
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'  # 此处换行
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern,html)

        # items是一个list,提取信息成字典形式
    for item in items:
        yield { # 构造一个字典
            'index': item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3:],#做切片,去掉“主演:“这3个字符
            'time':item[4].strip()[5:],
            'score':item[5]+item[6] #将小数点前后的数字拼接起来
        }
    return items
    
def main():
    url = "https://www.maoyan.com/board/4"
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)

效果如下:
在这里插入图片描述

3 保存至文件

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')  # 不允许写入ascii码
        f.close()
        
def main():
    url = "https://www.maoyan.com/board/4"
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

效果如下:
在这里插入图片描述

4 开启循环及多线程

方式一:

def main(offset):
    url = "https://www.maoyan.com/board/4?offset="+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
        
if __name__ == '__main__':
    for i in range(10):
        main(i*10)

方式二:

from multiprocessing import Pool
if __name__ == '__main__':
    pool = Pool() #创建一个进程池
    pool.map(main,[i*10 for i in range(10)])

4 整体代码

import requests
from requests.exceptions import RequestException
import re
import json
from multiprocessing import Pool

headers = {
    'User-Agent': 'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'}


# 提取单页内容,用try,except方便找bug
def get_one_page(url):
    try:

        response = requests.get(url, headers=headers)  # 传入headers参数
        if response.status_code == 200:
            return response.text
        return response.status_code
    except RequestException:  # 捕获这个类型的异常
        return None


def parse_one_page(html):  # 定义一个函数用来解析html代码
    # 生成一个正则表达式对象
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'  # 此处换行
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    # items是一个list,其中的每个内容都是一个元组
    # 将杂乱的信息提取并格式化,变成一个字典形式
    for item in items:
        yield {  # 构造一个字典
            'index': item[0],
            # 'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],  # 做一个切片,去掉“主演:”这3个字符
            'time': item[4].strip()[5:],  # 做一个切片,去掉“上映时间:”这5个字符
            'score': item[5] + item[6]  # 将小数点前后的数字拼接起来
        }


def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        # a表示模式是“追加”;采用utf-8编码可以正常写入汉字
        f.write(json.dumps(content, ensure_ascii=False) + '\n')  # 不允许写入ascii码
        # content是一个字典,我们需要转换成字符串形式,注意导入json库
        f.close()


def main(offset):
    url = 'https://maoyan.com/board/4?offset=' + str(offset)  # 把offset参数以字符串形式添加到url中
    html = get_one_page(url)
    for item in parse_one_page(html):  # item是一个生成器
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    pool = Pool()  # 创建一个进程池
    pool.map(main, [i * 10 for i in range(10)])  # map方法创建进程(不同参数的main),并放到进程池中

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/422533.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

洗地机推荐购买要点全攻略:洗地机哪些品牌好用?热门洗地机详细体验点评

清洁家务可谓是家务清洁中最累人的存在&#xff0c;既浪费时间也浪费精力&#xff0c;还费腰。如果是家有萌宠的铲屎官们就更加辛苦了&#xff0c;不仅清洁时会被萌宠们打扰&#xff0c;还要处理漫天飞舞和沾在地面上的毛发。那么有没有一款智能家电可以帮助我们快速高效的完成…

C++string类讲解

大家好鸭 见字如面&#xff0c;已经有好久没有写文章了&#xff0c;这段时间忙着学习&#xff0c;也忙着玩&#xff0c;所以停更了一段时间 今天让我们来谈一谈关于C中的string类 什么是string类&#xff1f; 在c语言中我们操作字符串往往采用指针&#xff0c;这样的访问方式并…

阿里巴巴面试必备:数据库集群知识全面解读!

大家好,我是小米。今天,我们将深入探讨阿里巴巴面试题中一个备受关注的话题:数据库集群。作为技术领域中的一项重要实践,数据库集群不仅是企业架构中的核心组成部分,更是保障系统稳定性和数据可靠性的关键一环。让我们一起来揭秘数据库集群的奥秘吧! 主从复制过程 主从…

★【二叉搜索树(中序遍历特性)】【 ★递归+双指针】Leetcode 98. 验证二叉搜索树

★【二叉搜索树&#xff08;中序遍历特性&#xff09;】【 ★递归双指针】Leetcode 98. 验证二叉搜索树 二叉搜索树 98. 验证二叉搜索树解法1 笨 中序递归遍历为一个数组 然后判断数组是不是升序排列就可以★解法2 不使用数组 递归法 ---------------&#x1f388;&#x1f38…

ssm701基于JavaWeb的个人健康信息管理系统

** &#x1f345;点赞收藏关注 → 私信领取本源代码、数据库&#x1f345; 本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目希望你能有所收获&#xff0c;少走一些弯路。&#x1f345;关注我不迷路&#x1f345;** 一 、设计说明 1.1 研究…

Excel常用公式总结非常实用

16个最实用的Excel万能公式 1、多条件判断 IF(And(条件1,条件2..条件N),条件成立返回值) IF(or(条件1,条件2..条件N),条件成立返回值) 2、多条件查找 Lookup(1,0/((条件1*条件2*...条件N)),返回值区域&#xff09; 3、多条件求和 Sumifs(值区域,判断区域1,条件1,判断区域2,条…

JS reduce() 附使用详解

reduce() 方法对数组中的每个元素执行自己提供的回调函数(依次执行)&#xff0c;将其结果汇总为单个返回值。 文章目录 前言一、reduce()是什么&#xff1f;二、使用步骤1.语法2.实例解析 initialValue 参数3.注意事项4.应用情况 三、总结 前言 reduce()方法可以搞定的东西特别…

【leetcode】用队列实现栈

大家好&#xff0c;我是苏貝&#xff0c;本篇博客带大家刷题&#xff0c;如果你觉得我写的还不错的话&#xff0c;可以给我一个赞&#x1f44d;吗&#xff0c;感谢❤️ 点击查看题目 思路: 在做此题之前&#xff0c;我们先要实现队列&#xff0c;这在上个博客中已经写过&#…

【深度学习笔记】5_4 池化层

注&#xff1a;本文为《动手学深度学习》开源内容&#xff0c;部分标注了个人理解&#xff0c;仅为个人学习记录&#xff0c;无抄袭搬运意图 5.4 池化层 回忆一下&#xff0c;在5.1节&#xff08;二维卷积层&#xff09;里介绍的图像物体边缘检测应用中&#xff0c;我们构造卷…

pyhton3+selenium的web页面自动化测试框架!

web自动化测试框架 pyhton3selenium3unittestHTMLTestRunner 环境部署&#xff1a; python3SeleniumunittestHTMLTestRunnerpageObject Web自动化测试框架 &#xff08;Page Object设计模式&#xff09; 环境部署&#xff1a; python3、selenium3 开发工具&#xff1a; P…

小程序事件处理

事件处理 一个应用仅仅只有界面展示是不够的&#xff0c;还需要和用户做交互&#xff0c;例如&#xff1a;响应用户的点击、获取用户输入的值等等&#xff0c;在小程序里边&#xff0c;我们就通过编写 JS 脚本文件来处理用户的操作 1. 事件绑定和事件对象 小程序中绑定事件与…

基于springboot实现保险信息网站系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现保险信息网站系统演示 摘要 随着互联网的不断发展&#xff0c;现在人们获取最新资讯的主要途径来源于网上新闻&#xff0c;当下的网上信息宣传门户网站的发展十分的迅速。而保险产品&#xff0c;作为当下人们非常关注的一款能够给人们带来医疗、生活、养老或…

HTML5新特性:为Web带来的翻天覆地变化

随着互联网的发展&#xff0c;HTML5作为Web开发的重要里程碑&#xff0c;为我们带来了一系列令人兴奋的新特性和功能。本文将带领大家探索HTML5的新特性&#xff0c;揭示其对Web技术的巨大影响。 一、介绍 HTML5作为HTML的最新版本&#xff0c;不仅强化了网页结构与内容&#…

【JVM】JVM相关机制

1. JVM内存区域划分 1.1 内存区域划分简介 内存区域划分&#xff1a;实际上JVM也是一个进程&#xff0c;进程运行时需要向操作系统申请一些系统资源&#xff08;内存就是典型的资源&#xff09;&#xff0c;这些内存空间就支撑着后续Java程序的运行&#xff0c;而这些内存又会…

【go语言开发】swagger安装和使用

本文主要介绍go-swagger的安装和使用&#xff0c;首先介绍如何安装swagger&#xff0c;测试是否成功&#xff1b;然后列出常用的注释和给出使用例子&#xff1b;最后生成接口文档&#xff0c;并在浏览器上测试 文章目录 安装注释说明常用注释参考例子 文档生成格式化文档生成do…

T3SF:一款功能全面的桌面端技术练习模拟框架

关于T3SF T3SF是一款功能全面的桌面端技术练习模拟框架&#xff0c;该工具针对基于主场景事件列表的各种事件提供了模块化的架构&#xff0c;并包含了针对每一个练习定义的规则集&#xff0c;以及允许为对应平台参数定义参数的配置文件。 该工具的主模块能够执行与其他特定模…

Python学习 问题汇总(None)

None的总结 在Python中&#xff0c;对于一些变量往往需要赋初始值&#xff0c;为了防止初始值与正常值混淆&#xff0c;通常采用置0或置空操作&#xff0c;置0比较简单&#xff0c;置空则是赋NoneNone是一个空值&#xff0c;可以赋给任意类型的变量&#xff0c;起到占位的作用…

德人合科技 | —数据泄露可能会对公司造成哪些影响?

数据泄露可能会对公司造成多方面的影响&#xff0c;以下是一些可能的影响&#xff1a; 财务损失&#xff1a;数据泄露可能导致公司遭受财务损失。攻击者可能会盗取公司的敏感信息&#xff0c;如客户信息、银行账户信息、商业机密等&#xff0c;并利用这些信息进行欺诈、盗窃等非…

从键盘输入5个整数,将这些整数插入到一个链表中,并按从小到大次序排列,最后输出这些整数。

设节点定义如下struct Node {int Element; // 节点中的元素为整数类型struct Node * Next; // 指向下一个节点 }; 从键盘输入5个整数&#xff0c;将这些整数插入到一个链表中&#xff0c;并按从小到大次序排列&#xff0c;最后输出这些整数。注释那段求指出错误&#xff0c;求解…

微信自动回复,基于python

#!/usr/bin/python3 # -*- coding: utf-8 -*-import numpy as np import pandas as pd from uiautomation import WindowControl import csvwx WindowControl(Name微信,searchDepth1 ) # 切换窗口 wx.ListControl() wx.SwitchToThisWindow() # 寻找会话控件绑定 hw wx.…