爬虫实战-Python爬取百度当天热搜内容

爬虫实战-Python爬取百度当天热搜内容

  • 学习建议
  • 学习目标
  • 预期内容
  • 目标分解
    • 热搜地址
    • 热搜标题
    • 热搜简介
    • 热搜指数
    • 小总结
  • 代码实现
  • 总结

学习建议

  • 本文仅用于学习使用,不做他用;
  • 本文仅获取页面的内容,作为学习和对Python知识的了解,不会对页面或原始数据造成压力;
  • 请规范文明使用本文内容,请仅作为个人学习参考使用。
  • 本文主要学习了Python爬虫的基础,及常用的几个模块或库的使用,比如BeautifulSoup、request等。

学习目标

  • 获取百度当天的热搜内容,并打印出来;
  • 内容需要包含热搜的标题、热搜简介、以及热搜的指数。

预期内容

  • 输入网址打开百度首页;
  • 进入首页后,点击【百度热搜】,如图:

请在此添加图片描述

  • 进入热搜首页后,点击【热搜】,即当前页面就是我们需要的数据:

请在此添加图片描述

  • 从下图可以看出,一条热搜的内容包含了热搜标题、该热搜的简介,以及热搜的指数,那么这三项内容就是我们最终要的内容:

请在此添加图片描述

目标分解

热搜地址

  • 进入到热搜主界面后,我们查看当前页面的URL,后续需要用到:

https://top.baidu.com/board?tab=realtime

请在此添加图片描述

热搜标题

  • 进入到热搜主页后,我们打开浏览器的F12调试模式;
  • 然后查看这条热搜标题对应的界面的源码;

请在此添加图片描述

  • 通过查看我们看出前两个热搜标题的源码为:
绿我涓滴 会它千顷澄碧
英媒称有人目击凯特现身
  • 从以上可以看出,有一个共同属性是class,剩下的就是标题内容不一样;
  • 通过分析我们用正则表达式来统一识别所有的热搜标题:
(.\*?)

热搜简介

  • 使用以上同样的方法,我们可以看到前两条热搜的简介如下:

请在此添加图片描述

如今兰考发生了翻天覆地的变化,张庄村的老百姓把xx走过的一条路改名为“幸福路”,沿着“幸福路”奔向越来越好的日子...
  • 同样可以使用正则表达式表示下:
(.\*)

热搜指数

  • 使用同样方法我们获取到热搜指数的正则表达式为:

div class=“hot-index_1Bl1a”>(.*?)

小总结

  • 通过以上分析,我们就得到了我们需要重点几个变量:

URL:url = https://top.baidu.com/board?tab=realtime
热搜标题: title = re.compile(r’

(.*?)
‘)
热搜简介:introduction = re.compile(r’
(.*)<a’)
#热搜指数:index = re.compile(r’
(.*?)
')

代码实现

根据以上分析,我们整理下思路:

  • 我们创建一个类TestHotsearch()来组织需要进行的操作;
  • 在类初始化中,把URL、热搜标题、热搜简介、热搜指数四个变量初始化;
  • 创建方法test_html_content()获取热搜页面的html内容;
  • 创建方法test_get_content()获取需要的重点信息;
  • 类实例化后调用对应的方法。

详细代码如下:

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error


class TestHotsearch():
    def __init__(self):
        # 热搜URL
        self.url = 'https://top.baidu.com/board?tab=realtime'
        # 热搜标题
        self.title = re.compile(r'<div class="c-single-text-ellipsis">(.*?)</div>')
        # 热搜简介
        self.introduction = re.compile(r'<div class="hot-desc_1m_jR small_Uvkd3 ellipsis_DupbZ">(.*)<a')
        # 热搜指数
        self.index = re.compile(r'<div class="hot-index_1Bl1a">(.*?)</div>')
        # 所有热搜条目
        self.all_content = "category-wrap_iQLoo horizontal_1eKyQ"


    def test_html_content(self):
        """
        获取热搜页面的html内容
        :return:
        """
        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
        }
        request = urllib.request.Request(self.url, headers = header)
        html_content = ""
        try:
            response = urllib.request.urlopen(request)
            html_content = response.read().decode("utf-8")
        except urllib.error.URLError as e:
            if hasattr(e, "code"):
                print(e.code)
            if hasattr(e, "reason"):
                print(e.reason)
        return html_content.encode('gbk', 'ignore').decode('gbk')

    def test_get_content(self):
        """
        获取需要的重点信息
        :return:
        """
        # 获取html内容
        html = self.test_html_content()
        # 定义一个空列表保存要获取的信息
        data_info = []
        content = BeautifulSoup(html, "html.parser")
        for name in content.find_all('div', class_=self.all_content):
            data = []
            name_str = str(name)
            title = re.findall(self.title, name_str)
            data.append(title)
            introduction = re.findall(self.introduction, name_str)
            data.append(introduction)
            index = re.findall(self.index, name_str)
            data.append(index)
            data_info.append(data)
        return data_info


if __name__ == "__main__":
    hot_search = TestHotsearch()
    get_content = hot_search.test_get_content()
    print(f"获取到信息如下:{get_content}")
  • 部分输出内容如下:

获取到信息如下:[[[’ 心系这门“关键课程” ‘], [], [’ 4932922 ‘]], [[’ 三只羊就梅菜扣肉事件致歉 ‘], [], [’ 4991528 ‘]], [[’ 女子山顶徒手攀爬石头手滑摔下 ‘], [], [’ 4816630 ‘]], [[’ 春分将至农事忙 ‘], [], [’ 4790902 ']],…

总结

Python主要是简单的爬虫实战,步骤清晰,容易理解和入门。建议最好用自己本地环境测试,仅供学习参考,请勿做其他用途。重点是学习Python正则表达式的应用,python的BeautifulSoup、request模块的使用等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/474892.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥-K倍区间--前缀和

题目描述&#xff1a; 给定一个长度为 NN 的数列&#xff0c;A1,A2,…AN&#xff0c;如果其中一段连续的子序列 Ai,Ai1,…Aj 之和是 K 的倍数&#xff0c;我们就称这个区间 [i,j] 是 K 倍区间。 你能求出数列中总共有多少个 K 倍区间吗&#xff1f; 输入格式 第一行包含两个…

vue3 elementPlus 设置树形报错时 setCheckedKeys of undefined

第一种解决方法 nextTick(async ()>{ treeRef.value!.setCheckedKeys(rows.permissionIds, false) }) 第一种解决方法 onMounted(async () > { treeRef.value!.setCheckedKeys([3], false) }&#xff09;

idea warning:java源值已过时将在未来所有发行版中删除

在idea中运行maven项目 如果出现idea warning:java源值已过时将在未来所有发行版中删除&#xff0c;详见如下截图所示&#xff1a; 注意&#xff1a;jdk8 要解决这个警告需要设置3个地方 首先打开File->Project Structure中的Project&#xff0c;将SDK和language level都设…

springboot使用socket和端口启动gRPC服务器的比较

gRPC 服务器启动方式比较 一. 介绍二. 套接字地址方式三. 端口方式四. 如何选择 前言 这是我在这个网站整理的笔记,有错误的地方请指出&#xff0c;关注我&#xff0c;接下来还会持续更新。 作者&#xff1a;神的孩子都在歌唱 一. 介绍 百度百科套接字 gRPC 是一种高性能的远…

Springboot笔记(web开启)-08

有一些日志什么的后续我会补充 1.使用springboot: 创建SpringBoot应用&#xff0c;选中我们需要的模块&#xff1b;SpringBoot已经默认将这些场景配置好了&#xff0c;只需要在配置文件中指定少量配置就可以运行起来自己编写业务代码&#xff1b; 2.SpringBoot对静态资源的映…

ideaSSM 人才引进管理系统bootstrap开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 idea 开发 SSM 人才引进管理系统是一套完善的信息管理系统&#xff0c;结合SSM框架和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助系统采用SSM框架&#xff08;MVC模式开发&#xff09;&#xff0c;系统具有完整的源代码和数据库&#xff…

动态代理源码分析

动态代理 代理模式的解释&#xff1a;为其他对象提供一种代理以控制对这个对象的访问&#xff0c;增强一个类中的某个方法&#xff0c;对程序进行扩展。 比如&#xff0c;现在存在一个UserService类&#xff1a; public class UserService {public void test() {System.out.…

PTA-练习4

目录 实验7-1-1 简化的插入排序 实验7-1-5 交换最小值和最大值 实验7-1-6 求一批整数中出现最多的个位数字 实验7-1-8 找出不是两个数组共有的元素 实验7-1-9 求整数序列中出现次数最多的数 实验7-1-10 组个最小数 实验7-1-11 装箱问题 实验7-1-1 简化的插入排序 //先将…

明明是字符串,为什么写的是char *str

字符串匹配 /* 暴力 将目标串s的第一个字符和模式串T的第一个字符进行匹配 相等&#xff0c;则比较s的第二个和T的第三个 不想等&#xff0c;比较s的第二个和T的第一个 如此循环 O(m*n)*/ #include<bits/stdc.h> using namespace std;int BF(char *str,char *sub) { //s…

聊聊SAP内存和ABAP内存

1、区别与联系 SAP内存&#xff08;SAP Memory&#xff09;和ABAP内存&#xff08;ABAP Memory&#xff09;&#xff0c;两者都可用于编程中的数据传递&#xff0c;将数据通过ID进行绑定&#xff0c;之后在其他程序中通过ID获取。 1.1、语法区别 1、SAP内存通过SET/GET PARA…

node.js实战 笔记 (补补前端Orz

Node.js是什么 Node.js是一个基于Chrome V8引擎的javascript运行环境。 Node.js使用一个事件驱动的非阻塞式IO模型。 Node.js和浏览器的区别 Node.js可以操作电脑&#xff0c;浏览器的javascript环境只能操作浏览器 Node.js多了一些内置模块&#xff0c;以及环境变量&#x…

【Redis】聊聊Redis常见数据类型底层结构

对于Redis来说&#xff0c;其实我们操作的数据类型就是String,List、Set、Zset、Hash&#xff0c;但是具体低层使用什么编码进行存储&#xff0c;在面试中是一个高频面试题&#xff0c;所以今天大概整理下对应的。 RedisObject与DictEntry 其实对于key来说一般都是String类型…

基于springboot+vue的在线互动学习网站

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

下载并安装ChatGPT Chrome扩展插件

解压 打开chrome浏览器并下面的步骤操作 参考链接&#xff1a; http://doc.xutongbao.top/docs/ai/994

华为配置Wi-Fi终端定位实验

配置Wi-Fi终端定位示例 组网图形 图1 配置Wi-Fi终端定位示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 管理员希望在已有WLAN覆盖业务的基础上&#xff0c;还可以定位覆盖区域内的终端位置信息。使用Wi-Fi终端定位方案&#xff0c;无需新…

C语言基础(十六)通过指针来输入和获取结构体的变量值

老样子&#xff0c;先看代码 #include <stdio.h> #include <string.h>#define NLEN 30 struct namect{char fname[NLEN];char lname[NLEN];int letters; };void getinfo(struct namect *); void makeinfo(struct namect *ptr); void showinfo(const struct namec…

如何在 Postman 中执行断言测试?

在当今的软件构建流程中&#xff0c;应用程序编程接口&#xff0c;简称 API&#xff0c;起到了不可或缺的作用&#xff0c;它们使得不同的软件应用能够互相沟通和交换数据。随着应用程序的不断演进变得越发复杂&#xff0c;保障API的可靠性及其稳定性显得格外关键。正因如此&am…

使用appuploder流程

使用appuploder流程笔记 1.如何没有账号去apple官网注册一个&#xff0c;地址&#xff1a;https://developer.apple.com/account 2.下载解压appuploder&#xff0c;双击打开&#xff0c;用刚刚注册的账号登录&#xff0c;下载地址&#xff1a;http://www.applicationloader.n…

员工上班摸鱼怎么管理

在当今快节奏的工作环境中&#xff0c;员工上班摸鱼的现象屡见不鲜。 这种行为不仅影响了工作效率&#xff0c;还可能对团队氛围和企业文化造成负面影响。 员工上班摸鱼的原因&#xff1f; 有些员工可能是因为工作压力过大&#xff0c;需要短暂的休息和放松&#xff1b; 有些…

人脸表情识别系统项目完整实现详解——(二)使用SSD模型检测人脸

摘要&#xff1a;人脸检测是人脸表情识别系统中至关重要的一环&#xff0c;其准确性直接影响到整个系统的性能表现。本文介绍了使用SSD模型和OpenCV进行高效人脸检测的完整代码实现。我们详细介绍了SSD人脸检测器的工作原理&#xff0c;包括如何加载预训练的SSD模型&#xff0c…