python爬虫之xpath+多进程爬取百度贴吧实战

文章目录

  • 抓取百度贴吧的某一个帖子的评论内容
    • 前言
    • 先查看贴吧的robots.txt
    • 页面结构分析
      • 评论者头像,用户抓取
      • 评论内容的抓取
      • 评论下回复内容的抓取
    • 源码实现
      • 贴吧抓取过程源码实现
      • 多进程的实现

抓取百度贴吧的某一个帖子的评论内容

前言

本项目实战是用来学习用,没有别的商业用途和恶意请求

先查看贴吧的robots.txt

这是君子协议,如果不允许爬取的,就不去碰,先看君子协议的地址:https://tieba.baidu.com/robots.txt
最后看到,评论内容允许被爬取。
在这里插入图片描述

页面结构分析

  • 抓取的数据结构:
    我们要抓取的评论的内容,评论人的头像,用户名,以及评论人的个人主页,评论时间,回复人信息
  • 页面结构
    通过 css 选择器,评论是位于一个class="p_postlist"的 div下,而p_postlist 下又有多个class 包含l_post j_l_post l_post_bright内容,可以确定评论就在这些 div 中
    在这里插入图片描述

评论者头像,用户抓取

通过页面结构分析,头像是位于 class="d_auth"的 div下元素ul 下,url 的 class="p_author
在这里插入图片描述
所以取头像,用户名的 xpath代码这么写

#头像地址
//ul[@class="p_author"]//a[contains(@class,"p_author_face")]/img/@src

# 个人主页的链接
//ul[@class="p_author"]//a[contains(@class,"p_author_face")]/@href

# 用户名的链接
//ul[@class="p_author"]//a[contains(@class,"p_author_name")]/text()

评论内容的抓取

在这里插入图片描述

#根据结构,可以去确定内容,子节点的id包含 post_content_就能拿到
//div[contains(@class,"d_post_content_main")]//div[contains(@id,"post_content_")]/text()

评论下回复内容的抓取

根据 xpath 工具看到,都是和评论同一个节点,class="d_post_content_main"的元素下。
在这里插入图片描述

# 评论下的内容
.//div[contains(@class,"d_post_content_main")]//ul[@class="j_lzl_m_w"]

但是在请求的代码中,发现这个 xpath 没有执行,数据没获取到,最后发现是js动态生成的,通过 respons.content的源码发现,这一整个回复的上层 div是空的,这里需要 JS 逆向处理,因为这块涉及到有一定的复杂度,就不再展开,等学完 JS 逆行再来处理。
在这里插入图片描述

源码实现

源码链接:https://gitee.com/allen-huang/python/blob/master/crawler/do-request/bbs/baidu_tieba.py

贴吧抓取过程源码实现

根据xpath结构抓取下来的内容,然后入库到 mongodb 中 去

class BaiduTieba(object):
    def __init__(self, url):
        self.url = url
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
        }
        pass

    def rep_content(self):
        """
        获取请求内容
        @return:
        """
        import requests
        resp = requests.get(self.url, headers=self.headers)
        if resp.status_code == 200:
            return resp.content
        else:
            return None
        pass

    def parse_content(self):
        """
        解析请求内容
        @return:
        """
        resp_data = self.rep_content()
        # 将请求内容转换成 html 内容,并编码为 utf-8
        html_data = etree.HTML(resp_data, parser=etree.HTMLParser(encoding='utf-8'))

        # 获取评论的内容
        comm_list = html_data.xpath('//div[contains(@class,"l_post j_l_post l_post_bright")]')
        insert_list = []
        for comm in comm_list:
            # 取左侧头像的图片链接
            author_face = comm.xpath('.//ul[@class="p_author"]//a[contains(@class,"p_author_face")]')[0]
            comm_user_link = author_face.xpath('./@href')[0]
            comm_face_img = author_face.xpath('./img/@src')[0]
            # 取左侧头像的用户名
            comm_name = comm.xpath('.//ul[@class="p_author"]//a[contains(@class,"p_author_name")]/text()')[0]

            # 取右侧的评论内容
            comm_content = comm.xpath(
                './/div[contains(@class,"d_post_content_main")]//div[contains(@id,"post_content_")]/text()')[0]
            # todo 取右侧的评论时间,这个需要使用 JS 逆向来取一开始以为是 xpath有问题,但在 chrom 浏览器插件上测试是可以的,
            # todo 在 response.content 上发现这是通过JS来动态取的,所以需要学完 JS 逆向再来处理
            # comm_time = comm.xpath(
            #     './/div[contains(@class,"core_reply_tail")]//ul[@class="p_tail"]/li[2]/span/text()')[0]

            comm_dict = {
                "comm_user_link": comm_user_link,
                "comm_face_img": comm_face_img,
                "comm_name": comm_name,
                "comm_content": comm_content,
                "from_url": self.url,
                # "comm_time": comm_time
            }

            # todo 取右侧的回复内容,这个需要使用 JS 逆向来取,先不做处理,等学完 JS 逆向再来处理
            # reply_list = []
            # reply_container = comm.xpath('.//div[contains(@class,"d_post_content_main")]//ul[@class="j_lzl_m_w"]')
            # for reply in reply_container:
            #     # 取回复人头像的链接
            #     reply_face = reply.xpath(
            #         './li[contains(@class,"lzl_single_post")]/a[@class="j_user_card lzl_p_p"]')
            #     reply_user_link = reply_face.xpath('./@href')
            #     reply_user_img = reply_face.xpath('./img/@src')
            #     # 取回复人的名字,回复内容,回复时间
            #     reply_con = reply.xpath(
            #         './li[contains(@class,"lzl_single_post")]/div[contains(@class,"lzl_cnt")]')
            #     reply_name = reply_con.xpath('./a[contains(@class,"j_user_card")]/text()')
            #     reply_content = reply_con.xpath('./span[contains(@class,"lzl_content_main")]/text()')
            #     reply_time = reply_con.xpath(
            #         './div[contains("class="lzl_content_reply")]//span[class="lzl_time"]/text()')
            #
            #     reply_dict = {
            #         "reply_user_link": reply_user_link,
            #         "reply_user_img": reply_user_img,
            #         "reply_name": reply_name,
            #         "reply_content": reply_content,
            #         "reply_time": reply_time
            #     }
            #     reply_list.append(reply_dict)
            #
            #     comm_dict["reply_list"] = reply_list
            insert_list.append(comm_dict)
        return insert_list
        pass

    def insert_data(self, curr_page):
        insert_list = self.parse_content()
        if insert_list:
            res = MongoPool().test.baidu_tieba.insert_many(insert_list)
            if res.inserted_ids:
                print(f"第{curr_page}页的数据插入成功")
            else:
                print("插入失败")
        else:
            pass

多进程的实现

  • 将爬取数据的处理封装成一个执行函数
def main(curr_page):
   url = "https://tieba.baidu.com/p/7216163538?pn={}".format(curr_page)
   # 创建一个百度贴吧对象
   baidu_tieba = BaiduTieba(url)
   # 调用对象的方法插入到 mongodb中
   baidu_tieba.insert_data(curr_page)
   pass
  • 这里是进程池来处理,爬取3页内容
if __name__ == '__main__':
    TOTAL_PAGE = 3
    pool = multiprocessing.Pool()
    pages = range(1, TOTAL_PAGE + 1)
    # 回调 main函数,pages是迭代器,作为回调函数的参数,这和map函数的用法一样
    pool.map(main, pages)
    # 关闭进程池
    pool.close()
    # 等待进程池中的进程执行完毕
    pool.join()

效果图
在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/478192.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网络: 数据链路层

数据链路层: 数据帧的封装与传输 以太网数据帧 源地址和目的地址是指网卡的硬件地址(也叫MAC地址), 长度是48位,是在网卡出厂时固化的;帧协议类型字段有三种值,分别对应IP、ARP、RARP;帧末尾是CRC校验码 以太网 "以太网" 不是一种具体的网络, 而是一种技术标准; 既…

CCLinkie转Modbus RTU在纺纱设备领域应用

在纺纱设备领域,CCLinkie转Modbus RTU网关可以发挥重要作用。这种网关的主要功能是将CC-Link IE Field总线协议转换为Modbus RTU协议。这种转换在许多自动化设备中都很有用,特别是那些已经使用Modbus RTU协议的系统。 以下是CCLinkie转Modbus RTU网关在纺…

【项目管理后台】Vue3+Ts+Sass实战框架搭建二

Vue3TsSass搭建 git cz的配置mock 数据配置viteMockServe 建立mock/user.ts文件夹测试一下mock是否配置成功 axios二次封装解决env报错问题,ImportMeta”上不存在属性“env” 统一管理相关接口新建api/index.js 路由的配置建立router/index.ts将路由进行集中封装&am…

用户分享 | 飞凌嵌入式i.MX9352开发板外设功能测试

本篇试用报告由发烧友 jinyi7016 提供,感谢jinyi7016的支持。 1、网络测试 飞凌嵌入式OK-MX9352-C开发板有两个千兆网口,其中eth0是静态IP,地址为192.168.0.232,这个地址比较大,也是为了避免与局域网内的其他设备冲突…

蓝桥杯单片机备战——关于573问题的填坑

一、遇到的问题 还记得我前面在封装继电器外设的时候遇到的这个问题嘛,当时我怀疑的是138译码器在切换通道的时候会出现其他暂态导致已经锁定的573解锁。 其实不然,之所以会这样还是因为代码问题,也可以说是573反应时间太快了。下面我就分析…

unity学习(63)——预制体

1.运行发现预制体初始化的时候存在问题 这里有许多技巧,需要细看。 2.预制体在MapHandler.cs的定义如下 3.把MapHandler绑到相机上,在相机的属性栏中找到赋值部分。 4.size设置成2,然后把模型拖拽到1号索引位置上 5.运行之后预制体确实成功实…

Java类的多态作用及解析

多态是面向对象编程中一个重要的特性。简单来说,多态就是指同一个方法在不同的对象上有不同的实现。通过多态,我们可以在运行时根据对象的实际类型来动态地调用相应的方法,从而提高代码的灵活性和可扩展性。 以下是 Java 类中多态的一些作用…

leetcode 3075

leetcode 3075 题目 例子 思路 孩子的幸福值最低也是0&#xff0c;所以选择最大的值&#xff0c;被选孩子的幸福值最高。需要使用排序算法 代码实现 class Solution { public:long long maximumHappinessSum(vector<int>& happiness, int k) {//升序sort(happine…

python之实验二颜色空间转换与分割

1&#xff0e;编写python代码&#xff0c;使用skimag拆分并显示图像RGB空间的三个通道 (我直接用的包中自带的图像) from skimage import data from matplotlib import pyplot as plt import numpy as npif __name__ "__main__":# 载入RGB测试图像image data.astro…

OKR与敏捷开发、精益创业等方法如何协同工作?

在快速变化的市场环境中&#xff0c;企业需要更加灵活和高效地应对各种挑战。目标与关键成果法&#xff08;OKR&#xff09;、敏捷开发以及精益创业等方法&#xff0c;作为现代企业管理的重要工具&#xff0c;各自在推动企业发展、提高团队效率、优化产品迭代等方面发挥着不可或…

使用appuploder上架App Store流程

使用appuploder流程笔记 1.如何没有账号去apple官网注册一个&#xff0c;地址&#xff1a;https://developer.apple.com/account 2.下载解压appuploder&#xff0c;双击打开&#xff0c;用刚刚注册的账号登录&#xff0c;下载地址&#xff1a;http://www.applicationloader.n…

逻辑手册器件解读,需要注意的参数

逻辑器件手册解读 可以实现的功能 上图第一个芯片实现的功能是逻辑电平的转换&#xff0c;1.8V的逻辑电平经过逻辑器件之后转换为3.3V&#xff0c;可以看出逻辑器件的输出最高电平是跟随供电电压的。 第二个芯片实现的是"与的逻辑",两个不同的高电平信号经过逻辑器件…

inputStream.avaliable()方法网络操作读取不全BUG

一、问题描述 公司有个需求&#xff0c;就是调用方&#xff08;我&#xff09;需要把pdf文件转为Base64字符串作为参数传递为被调用方&#xff0c;以下是大致转换过程&#xff1a; URL url new URL("http://xxxx.pdf");HttpURLConnection uc (HttpURLConnection) …

抓住眼前的机会:自我决策与成长的探索

在人生的旅途中&#xff0c;我们常常会遇到各种各样的机会。它们如同璀璨的星辰&#xff0c;在夜空中闪烁着诱人的光芒。然而&#xff0c;机会并非总是会自动降临在我们头上&#xff0c;更多的时候&#xff0c;它们需要我们去主动寻找、去勇敢抓住。那么&#xff0c;当机会摆在…

Python 可视化和分析高维数据库之hiplot使用详解

概要 在机器学习和数据科学领域,处理高维数据是一项挑战。为了更好地理解和分析高维数据,需要使用一些强大的工具来可视化和探索数据特征。HiPlot 就是这样一款强大的 Python 库,它简化了高维数据的可视化和分析过程,帮助用户快速发现数据中的规律和趋势。本文将深入介绍 …

同时配置 jdk8、jdk17 两个环境

下载jdk17 网址&#xff1a;jdk17 - 官网&#xff0c;如下&#xff1a; 下载 jdk8 网址&#xff1a;jdk8 - 官网 如下&#xff1a; 配置环境变量 在安装jdk17 和 jdk8 的时候&#xff0c; 系统会自动在 Path 中配置路径C:\Program Files\Common Files\Oracle\Java\javapa…

CVX安装新版本Mosek求解器

在使用连续凸近似&#xff08;SCA&#xff09;求解优化问题时遇到了报错 Problem status : ILL_POSED Solution status : PRIMAL_ILLPOSED_CER并且最后给出的结果为NaN。 在CVX论坛中找到一条回答 具体链接如下&#xff1a; The status is failed 因为我使用的是CVX自带的…

基于ssm的新能源汽车在线租赁管理系统论文

摘 要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;新能源汽车在线租赁当然也不能排除在外。新能源汽车在线租赁是以实际运用为开发背景&#xff0c;运用软件工程开发方法&…

【数据库基础】一些数据库处理(一)

文章目录 1. 向设置为float型的数据表中插入数据&#xff0c;自动转化为整数2. 创建触发器3. 触发器查询 1. 向设置为float型的数据表中插入数据&#xff0c;自动转化为整数 由于我是使用Navicat直接自动创建表的&#xff0c;所以参考了这一篇文章&#xff1a;mysql向数据库插…

用JDBC游标的方式导出mysql数据以及springboot打包成exe程序实践

用JDBC实现游标查询&#xff0c;关键代码在于 Statement 的 fetchSize 属性的设置。 ExportDataService import cn.hutool.core.io.FileUtil; import cn.hutool.core.text.csv.CsvUtil; import cn.hutool.core.text.csv.CsvWriter; import cn.hutool.core.util.StrUtil; impo…