【爬虫】对某某贴吧主页的爬虫分析+源码

article2025/1/23 4:54:45/文章来源:https://blog.csdn.net/weixin_46070649/article/details/131423852

1. 网站分析

想要的内容有标题、时间和帖子跳转链接

查看网站源代码，发现想要的内容就在里面，那就好办了，直接上正则，当然beautifulsoup也不是不可以

2. Python源码

import requests
import re
from prettytable import PrettyTable

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0'
}
x = PrettyTable(["标题", "时间", "链接"])
x.align["标题"] = "l"
// 这里会整合三页内容，想要多少页，就把101改成50*(页数-1)+1
for i in range(0, 101, 50):
    resp = requests.get(f'https://tieba.baidu.com/f?kw=%E5%8D%9A%E5%B0%94%E7%89%B9&ie=utf-8&pn={i}', headers=headers)
    with open(file='1.html', mode='w', encoding='utf-8') as f:
        f.write(resp.text)
    obj = re.compile('<a rel="noopener" href="/p/(?P<url>.*?)" title="(?P<title>.*?)".*?<span class="pull-right is_show_create_time" title="创建时间">(?P<time>.*?)</span>', re.S)
    title = obj.finditer(resp.text)
    for i in title:
        x.add_row([i.group('title'), i.group('time'), 'https://tieba.baidu.com/p/' + i.group('url')])
print(x)

3. 效果展示

ps：好久没玩爬虫了，但是在网页版逛吧时看到很多广告让我很不爽，故写下此脚本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/34066.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【Servlet学习三】实现一个内存版本的简易计算器~

【Servlet学习三】实现一个内存版本的简易计算器~

目录一、方式1：使用form表单的形式（不推荐） 🌈1、前端代码：HTML文件 🌈2、后端代码：Calculator_form.java文件 🌈3、最终效果二、方式2：使用ajax形式（…

阅读更多...

如何确保大模型追求“正确”的目标？丨AI安全与对齐圆桌回顾

如何确保大模型追求“正确”的目标？丨AI安全与对齐圆桌回顾

导读在智源大会「AI 安全与对齐」论坛上，与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。能力越大，责任越大。嘉宾名单谢旻希丨主持人，安远A…

阅读更多...

【P61】JMeter JDBC Connection Configuration

【P61】JMeter JDBC Connection Configuration

文章目录一、JDBC Connection Configuration 参数说明二、准备工作一、JDBC Connection Configuration 参数说明可以给数据源配置不同的连接池，供后续 JDBC 采样器使用；使用前请将对应的数据库驱动复制到 $JMETER_HOME/lib/ 或者 $JMETER_HOME/lible…

阅读更多...

【剧前爆米花--爪哇岛寻宝】TCP实现可靠性的方法以及连接相关的三次握手四次挥手

【剧前爆米花--爪哇岛寻宝】TCP实现可靠性的方法以及连接相关的三次握手四次挥手

作者：困了电视剧专栏：《JavaEE初阶》文章分布：这是一篇关于网络编程的文章，在这篇文章中我会具体介绍TCP是如何实现可靠性的并且分析建立断开连接的情况，希望对你有所帮助！ 目录可靠性确认应答超时…

阅读更多...

leecode-下一排列

leecode-下一排列

题目题目分析妈呀，其实我直接调用函数，一行代码就通过了hhh，不过这种取巧的方式不可取，还是得老老实实的写。首先需要明白什么叫下一排列？ 比如输入： 1 5 8 4 7 6 5 3 1 答案就是： 1 5 …

阅读更多...

macOS上下载安装Kibana并连接ES

macOS上下载安装Kibana并连接ES

下载Kibana 执行以下命令进行，版本号根据你所用的ES版本选择，比如我的是7.10.0 curl -O https://artifacts.elastic.co/downloads/kibana/kibana-7.10.0-darwin-x86_64.tar.gz解压安装Kibana tar -zxvf kibana-7.10.0-darwin-x86_64.tar.gz进行config…

阅读更多...

QT——使用QListWidget、QListWidgetItem、QWidget实现自定义管理列表

QT——使用QListWidget、QListWidgetItem、QWidget实现自定义管理列表

作者：小琛欢迎转载，请标明出处文章目录需求场景思路描述Qt模块QListWidgetQListWidgetItem自定义QWidget配合QListWidget 例子：实现一个json文件管理窗口需求场景因工作需要，开发一个文件管理窗口，要让使用者可…

阅读更多...

【python爬虫应用03】csdn个人所有文章质量分查询

【python爬虫应用03】csdn个人所有文章质量分查询

🛠️ 环境准备在开始编写代码之前，我们需要进行一些环境准备。以下是所需的环境和库： 操作系统：Windows编程语言：Python 3编辑器：VSCode（可选） 安装所需的库： reque…

阅读更多...

Git快速入门

Git快速入门

Git 1、Git概述Git简介Git下载与安装 2、Git代码托管服务常用的Git代码托管服务使用码云托管服务 3、Git常用命令Git全局设置获取Git仓库工作区、暂存区、版本库概念本地仓库常用命令远程仓库操作命令分支操作标签操作 4、在IDEA中使用Git在IDEA中配置Git获取Git仓库本地仓库操…

阅读更多...

OpenAI Gym入门与实操（2）

OpenAI Gym入门与实操（2）

本文内容参考： Getting Started With OpenAI Gym | Paperspace Blog， 【强化学习】 OpenAI Gym入门：基础组件（Getting Started With OpenAI Gym: The Basic Building Blocks）_iioSnail的博客-CSDN博客 3. 环境&#…

阅读更多...

Blender导出gltf格式ThreeJS不显示问题-

Blender导出gltf格式ThreeJS不显示问题-

1. 检查代码 import { GLTFLoader } from three/addons/loaders/GLTFLoader.js; 。。。。。。initRoomGltf() {const _this this;// const loader new OBJLoader();const loader new GLTFLoader();// load a resourceloader.load(// resource URL// this.commonFunc.getPat…

阅读更多...

vcruntime140_1.dll无法继续执行代码，有哪些方法可以解决？

vcruntime140_1.dll无法继续执行代码，有哪些方法可以解决？

关于vcruntime140_1.dll无法继续执行代码的错误问题，其实还是非常的普遍的，这属于经常丢失的dll文件之一，当然还有一个vcruntime140.dll也是非常容易丢失的，本文下面会介绍到这两种有啥区别，以及怎么去修复这些文件丢失…

阅读更多...

spring复习：（4）AbstractEnvironment

spring复习：（4）AbstractEnvironment

该类中指定了激活profile属性的名称(spring.profiles.active)，默认profile属性的名称(spring.profiles.default)，以及默认的profile的名字(default)。

阅读更多...

【Leetcode】19.删除链表的倒数第 N 个结点

【Leetcode】19.删除链表的倒数第 N 个结点

一、题目 1、题目描述给你一个链表，删除链表的倒数第 n 个结点，并且返回链表的头结点。示例1：输入：head = [1,2,3,4,5], n = 2 输出：[1,2,3,5]示例2：输入：head = [1], n = 1 输出：[]示例3：输入：head = [1,2], n = 1 输出：[1]提示：链表中结点的数目为 sz…

阅读更多...

【剑指offer专项突破版】二叉树篇——“C“

【剑指offer专项突破版】二叉树篇——“C“

文章目录前言一、二叉树剪枝题目分析思路分析代码二、序列化与反序列化二叉树题目分析思路分析代码三、从根节点到叶节点的路径数字之和题目分析思路分析代码四、向下的路径节点之和题目分析思路分析思路①代码思路②代码五、节点之和最大的路径题目分析思路分析代码六、…

阅读更多...

XSS注入——DOM型XSS

XSS注入——DOM型XSS

DOM型xss XSS根据恶意脚本的传递方式可以分为3种，分别为反射型、存储型、DOM型，前面两种恶意脚本都会经过服务器端然后返回给客户端，相对DOM型来说比较好检测与防御，而DOM型不用将恶意脚本传输到服务器在返回客户端，这…

阅读更多...

Elasticsearch 地理空间计算

Elasticsearch 地理空间计算

地理位1置搜索：使用查询API进行搜索 1、Geo Distance Query Geo Distance Query是在给定的距离范围内搜索数据的查询。例如，可以搜索给定地理位置附近指定距离内的所有文档。 GET /my_index/_search {"query": {"bool" : {"fi…

阅读更多...

9、Redis集群(cluster)

9、Redis集群(cluster)

是什么 Redis集群是一个提供在多个Redis节点间共享数据的程序集，Redis集群可以支持多个master 能干嘛 Redis集群支持多个master，每个master又可以挂载多个slave 读写分离支持数据的高可用支持海量数据的读写存储操作由于Cluster自带Sentinel的故障转…

阅读更多...

软考高级系统架构设计师(九) 作文模板-论设计模式及其应用(未完待续)

软考高级系统架构设计师(九) 作文模板-论设计模式及其应用(未完待续)

目录掌握的知识点创建型结构型行为型掌握的知识点设计模式分为哪3类每一类包含哪些具体的设计模式创建型创建型模式是对对象实例化过程的抽象，他通过抽象类所定义的接口，封装了系统中对象如何创建、组合等信息。创建型模式主要用于创建对…

阅读更多...

Buildroot 取消默认QT桌面-迅为RK3588开发板

Buildroot 取消默认QT桌面-迅为RK3588开发板

本小节将讲解如何取消掉默认的 qt 桌面。首先对开发板进行上电，开发板正常启动后，使用命令“cd /etc/init.d”进入到/etc/init.d 目录下，然后使用以下命令对开机自启动脚本 rcS 进行查看，如下图所示： vi rcS 从上…

阅读更多...

最新文章