爬虫 新闻网站 以湖南法治报为例(含详细注释) V4.0 升级 自定义可任意个关键词查询、时间段、粗略判断新闻是否和优化营商环境相关,避免自己再一个个判断

目标网站:湖南法治报

爬取目的:为了获取某一地区更全面的在湖南法治报的已发布的和优化营商环境相关的宣传新闻稿,同时也让自己的工作更便捷

环境:Pycharm2021,Python3.10,

安装的包:requests,csv,bs4,datetime

v4.0 版本特点:获取指定时间段的新闻数据,筛选出含有想要查找的的任意个关键词的新闻内容,同时标注新闻是否和优化营商环境相关(粗略判断新闻是否和优化营商环境相关),并存储起来。

 

 

1 首先分析网页

(查看数据返回方式,发现网站不用像红网那样设置各种headers了,可以直接爬)

发现在这个页面只有文章标题和发布时间,以及文章链接的信息(当然文章有图片的就还有图片信息)

2 再看文章内容页面

(像我就只要文字部分就行了,不需要图片)

3 和v3对比修改的主要代码:(增加可以多个关键词搜索的方法)

4 运行结果:

5 完整代码,(详细注释)
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2024/4/7 21:05
# @Author : 懒笑翻
# @Site : 
# @File : efaw_v4.py
# @Software: PyCharm

# v4版本主要是优化搜索,可以任意个关键词,自定义关键词;同时删掉输入,可以直接修改参数,因为每次输入也是头疼,不如直接改参数呢!
# 今天爬取玩数据发现一个问题,就是有一些双牌县下的乡镇的新闻其实是和营商环境相关的,但是因为内容时以他们乡镇直接写的,没提到双牌县**乡镇,因此导致数据被丢弃
# 为了避免上述情况再次出现,于是想了把乡镇的关键词也包含进去
# 双牌县有哪些乡镇:
# 镇:泷泊镇、江村镇、五里牌镇、茶林镇、何家洞镇、麻江镇。
# 乡:塘底乡、上梧江瑶族乡、理家坪乡、五星岭乡、打鼓坪乡。

import re
import csv
import datetime
import requests
from bs4 import BeautifulSoup


# 这个函数用来判断某一组关键词中是否有词存在某个句子中,存在则返回True
def contains_word_from_set(word_set, sentence):
    # 将词组中的词用管道符(|)连接,创建正则表达式
    regex_pattern = '|'.join(word_set)
    # 使用正则表达式在句子中查找单词
    if re.search(regex_pattern, sentence):
        return True
    return False


# 由于发现湖南法治报没有设置反爬机制,因为我们不用反反爬了,可以直接爬数据了
# 市州动态 下的对应市州的编号
szId = {"长沙": "14129", "株洲": "14130", "湘潭": "14223", "衡阳": "14224", "邵阳": "14225", "岳阳": "14226",
        "常德": "14227",
        "张家界": "14228", "益阳": "14229", "郴州": "14230", "永州": "14231", "怀化": "14232", "娄底": "14233",
        "湘西": "14234"}

# 输入你想要获取的湖南省下的哪一市州的新闻 比如 湖南省下的永州市,直接输入 永州 即可
sz = "永州"
# 根据输入的湖南省下的市州 得到对应的市州编号 再拼接入链接
url = "http://www.efaw.cn/list/" + szId[sz]
# 输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵
search_keyword = '双牌'
# 双牌县下的乡镇
key_words = {'双牌', '泷泊', '江村', '五里牌', '茶林', '何家洞', '麻江', '塘底', '上梧江瑶族', '五星岭', '打鼓坪', '理家坪'}

# 二级搜索  优化营商环境 乡村振兴 农业振兴之类的,可以一直加
search_keyword2 = {'优化', '营商', '环境', '春耕', '乡村', '农村', '乡镇', '农业'}
# 自定义需要获取的新闻的时间段
# 开始时间
start_time = '2024 4 1'
start_time = datetime.datetime.strptime(start_time, '%Y %m %d')
# 截止时间
end_time = '2024 4 8'
end_time = datetime.datetime.strptime(end_time, '%Y %m %d')
# 标题就含有关键词的计数器
title_Yes_Num = 0
# 标题不含有关键词但是内容含有关键词的计数器
title_No_Num = 0
# 新闻来源级别
level = "省级"
# 用于计数爬到第几个新闻
count_cc = 0
""" 
爬虫思路:
首先最开始是打开要爬取的网站,然后分析怎样获取需要的数据最完整和便捷
一开始看到搜索其实是想直接搜关键词获取新闻的,但是发现通过搜索框获得到新闻数据不如市州动态下的全面,
所以还是打算一条一条新闻比对是否符合自定义关键词
1 首先进入市州动态获取到某市州动态下的所有新闻数据
2 根据具体新闻链接进入新闻页面,获取到新闻信息
"""

# # 创建CSV文件并写入头部信息
with open(search_keyword + 'yhyshj_湖南法治报_标题含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(
        ['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源', '优化营商环境相关'])  # 根据实际情况定义列名
with open(search_keyword + 'yhyshj_湖南法治报_内容含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(
        ['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源', '优化营商环境相关'])  # 根据实际情况定义列名

# http://www.efaw.cn/list/14231?page=1
page = 1
# while page <= 20:  # 从这里修改数字以控制要多少页的新闻内容,,page<=20page从1开始一直到20
while page > 0:
    # 拼接出每一页的url
    url_page = url + "?page=" + str(page)  # http://www.efaw.cn/list/14231?page=5
    html_all = requests.get(url_page)
    html_all.encoding = 'utf-8'
    print(page, '页', url_page)
    if html_all.status_code == 200:
        soups = BeautifulSoup(html_all.text, 'html.parser')
        article_info = soups.find_all('ul', class_='list_content')
        for i in article_info:
            result_info = i.find_all('div')
            for art in result_info:
                article_href = art.a.get('href')  # 文章链接
                article_href = re.sub(r'\s+', '', article_href)  # 去除链接中存在的空隔
                # print(article_href)
                article_title = art.a.get('title')  # 文章标题
                article_time = art.i.text  # 文章发布时间  显示为:发布时间:2024-04-02 10:08:03
                # 因为只要年月日部分的时间,因此把一些不需要的字符去掉
                article_time = article_time[2 + article_time.index('间:'):]
                article_time = article_time[:article_time.index(':') - 3]
                article_time = article_time.replace('-', '.')

                article_time_se = datetime.datetime.strptime(article_time, '%Y.%m.%d')
                count_cc += 1
                # print('--page', page, 'count_cc', count_cc, '--title:', article_title, 'time:', article_time, 'href:',
                #       article_href)

                # 现在有个问题怎么退出循环,时间不满足就退出:现在获取到的新闻的时间<开始时间就退出
                if article_time_se < start_time:
                    page = -1
                    break
                # 只把时间满足要求的数据才继续下面的操作 并把数据存入表格
                if start_time <= article_time_se <= end_time:
                    # 从文章内容中获取到来源
                    html_article_info_sk = requests.get(article_href)
                    html_article_info_sk.encoding = 'utf-8'

                    if html_article_info_sk.status_code == 200:
                        soups_sk = BeautifulSoup(html_article_info_sk.text, 'html.parser')
                        # article_info_sk:文章的相关内容,包括标题、发表时间、来源、编辑、作者、文章内容
                        article_info_sk = soups_sk.find_all('div', class_='video_left')

                        # 其实在这里我想获取到具体的来源,这一段因为在新闻详情页面,如果 来源 为 双牌县优化办 ,那么这条新闻就是优化办推过去的
                        spxq_title_source = soups_sk.find('div', class_='spxq_title_source').text
                        # 文章信息来源 显示为: 来源:湖南法治报
                        atricle_source = spxq_title_source[
                                         spxq_title_source.index('来源:') + 3:spxq_title_source.index('|')]

                    article_info_sk_string = str(article_info_sk)  # 这里要把article_info_sk字符串化,不然无法判断关键词是否在内容中存在

                    # 设立一个标识,默认为0和营商环境无关,1有关
                    yshj = 0
                    # 判断search_keyword2中关键词是否在article_info_sk内容中存在
                    if contains_word_from_set(search_keyword2, article_info_sk_string):
                        # print("----和优化营商环境有关----")
                        yshj = 1

                    # 在这里可以从标题判断是否含有搜索的关键词search_keyword,如果有则可以直接存储这条新闻信息,如果没有则继续查看新闻内容,看是否含有关键词信息
                    if contains_word_from_set(key_words, article_title):  # 标题判断含有搜索的关键词search_keyword

                        # print(article_info_sk)
                        title_Yes_Num += 1
                        with open(search_keyword + 'yhyshj_湖南法治报_标题含关键词.csv', 'a', newline='',
                                  encoding='utf-8') as csvfile:

                            writer = csv.writer(csvfile)
                            writer.writerow(
                                [title_Yes_Num, article_title, "湖南法治报", level, article_time, article_href,
                                 atricle_source, yshj])

                        # print("Yes Tile have SK !!!!!", title_Yes_Num)
                        print(title_Yes_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                              'source:', atricle_source)

                    else:  # 标题判断不含搜索的关键词search_keyword
                        if contains_word_from_set(key_words, article_info_sk_string):
                            title_No_Num += 1
                            with open(search_keyword + 'yhyshj_湖南法治报_内容含关键词.csv', 'a', newline='',
                                      encoding='utf-8') as csvfile:
                                writer = csv.writer(csvfile)
                                writer.writerow(
                                    [title_No_Num, article_title, "湖南法治报", level, article_time, article_href,
                                     atricle_source, yshj])
                            # print("Yes Content have SK !!!!!", article_info_sk)
                            print(title_No_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                                  'source:', atricle_source)
    page += 1

print("#### 你获取的关键词", search_keyword, '时间从', start_time, '~', end_time, '的数据已经获取完!')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/530039.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

K8S哲学 - kubectl

Kubectl is the Kubernetes cli version of a swiss army knife, and can do many things. Kubernetes coordinates a highly available cluster of computers that are connected to work as a single unit k8s production-ready. 概念 kubectl 和 Kubernetes API 区别

使用Docker Registry-v2搭建镜像仓库详细教程

我们使用docker来部署私有化镜像仓库… 1、下载 registry:v2 镜像 docker pull registry:22、在私有仓库所在的主机目录新建一个文件夹&#xff0c;用于持久化保存仓库中的镜像 mkdir -p /opt/registry3、启动registry镜像 使用docker镜像启动私有仓库容器服务&#xff0c;…

【azure笔记 1】容器实例管理python sdk封装

容器实例管理python sdk封装 测试结果 说明 这是根据我的需求写的&#xff0c;所以有些参数是写死的&#xff0c;比如cpu核数和内存&#xff0c;你可以根据你的需要自行修改。前置条件&#xff1a; 当前环境已安装python3.8以上版本和azure cli并且已经登陆到你的账户 依赖安…

网络基础三——IP协议补充和Mac帧协议

全球网络及网段划分的理解 ​ 根据国家组织地区人口综合评估进行IP地址范围的划分&#xff1b; ​ 假设前8位用来区分不同的国家&#xff0c;国际路由器负责全球数据传输&#xff0c;子网掩码为IP/8&#xff1b;次6位区分不同的省份&#xff0c;国内路由器负责全国数据的传输…

【CSS】MDN

一、CSS构建 1.1 CSS选择器 1.1.1 元素选择器 标签不区分大小写 示例&#xff1a; span {background-color: yellow; }1.1.2 通用选择器 选择文档中所有内容&#xff0c;重置样式表中使用较多 鉴于div:first-child&#xff08;代表所有的div元素&#xff0c;并且是第一个…

杨辉三角形(蓝桥杯,acwing)

题目描述&#xff1a; 下面的图形是著名的杨辉三角形&#xff1a; 如果我们按从上到下、从左到右的顺序把所有数排成一列&#xff0c;可以得到如下数列&#xff1a; 1, 1, 1, 1, 2, 1, 1, 3, 3, 1, 1, 4, 6, 4, 1, ... 给定一个正整数 N&#xff0c;请你输出数列中第一次出现…

OpenAI曾转录100万小时视频数据,训练GPT-4

4月7日&#xff0c;纽约时报在官网发布了一篇名为《科技巨头如何挖空心思&#xff0c;为AI收集数据》的技术文章。 纽约时报表示&#xff0c;OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题&#xff0c;便开发了知名开源语音识别模型Whispe…

Windows完全卸载MySQL后再下载安装(附安装包)

目录 友情提醒第一章&#xff1a;如何完全卸载干净mysql教程&#xff08;三个步骤完全卸载&#xff09;1&#xff09;步骤一&#xff1a;卸载程序2&#xff09;步骤二&#xff1a;删除文件3&#xff09;步骤三&#xff1a;删除注册表信息 第二章&#xff1a;下载软件两种方式1&…

langchain LCEL,prompt模块,outputparse输出模块

目录 基本代码 prompt模块 prompt模版控制长度 outputparse格式化输出 LangChain表达式语言&#xff0c;或者LCEL&#xff0c;是一种声明式的方式&#xff0c;可以轻松地将链条组合在一起 langchian 可以使用 通义千问&#xff0c;我们用通义千问&#xff0c;用法也要申请…

Java语言实现文件分割与合并

一&#xff1a; 题目&#xff1a; 写一个方法,将feige.exe文件分割为每份1MB大小的若干份(最后一份可以不满1MB), 存储在一个temp的文件夹中(每份文件名自己定义,例如1.temp 2.temp), 然后再写一个方法,将temp文件夹中的若干份合并为一个文件fg.exe 代码&#xff1a; main…

FreeGPT3.5 开源软件

GPT-3.5不需要付费&#xff0c;也不需要注册用户&#xff0c;可以直接使用了&#xff0c;官方彻底开放了API接口。 该API政策一放开&#xff0c;GitHub很快就已经出现了一个开源项目FreeGPT35&#xff0c;可以自动生成key调用GPT3.5的API接口&#xff0c;再也用不着注册账号和申…

「51媒体」中小初创企业如何做好媒体宣传?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 中小初创企业在做媒体宣传时&#xff0c;由于通常资源有限&#xff0c;需要更加精明地使用外部资源来提升品牌知名度和业务成长。利用专业的媒体服务商可以是一个非常有效的方法。 明确目…

Android OOM问题定位、内存优化

一、常用工具&#xff1a; 1、LeakCanary val refWatcher: RefWatcher? TestApp.getRefWatcher(activity) refWatcher?.watch(activity);//检测是否有泄露&#xff0c;即触发GC回收&#xff0c;看activity是否被回收&#xff0c;没有被回收就是泄露了。 二、常见的几种内…

CSS aspect-ratio属性设置元素宽高比

aspect-ratio 是CSS的一个属性&#xff0c;用于设置元素的期望宽高比。它设置确保元素保持特定的比例&#xff0c;不受其内容或容器大小的影响。 语法&#xff1a; aspect-ratio: <ratio>;其中 <ratio> 是一个由斜杠&#xff08;/&#xff09;分隔的两个数字&…

【机器学习】一文掌握机器学习十大分类算法(上)。

十大分类算法 1、引言2、分类算法总结2.1 逻辑回归2.1.1 核心原理2.1.2 算法公式2.1.3 代码实例 2.2 决策树2.2.1 核心原理2.2. 代码实例 2.3 随机森林2.3.1 核心原理2.3.2 代码实例 2.4 支持向量机2.4.1 核心原理2.4.2 算法公式2.4.3 代码实例 2.5 朴素贝叶斯2.5.1 核心原理2.…

CPU问题排查

经常发现生产环境CPU运行很高&#xff0c;我们想知道到底是什么代码这么消耗CPU TOP命令 此时我们经常使用top来找到 CPU 使用率比较高的一些线程 容器中的docker 备注&#xff1a; 如果是docker 中的top命令。需要关注&#xff0c;一般来说不需要&#xff0c;挂载内容的多…

SQL注入sqli_libs靶场第一题

第一题 联合查询 1&#xff09;思路&#xff1a; 有回显值 1.判断有无注入点 2.猜解列名数量 3.判断回显点 4.利用注入点进行信息收集 爆用户权限&#xff0c;爆库&#xff0c;爆版本号 爆表&#xff0c;爆列&#xff0c;爆账号密码 2&#xff09;解题过程&#xff1…

云安全在金融领域的作用是什么?

云安全在金融领域发挥着至关重要的作用&#xff0c;使金融机构能够保护敏感数据、遵守监管要求并推动创新。通过实施强有力的安全措施、利用先进技术并对新出现的威胁保持警惕&#xff0c;金融机构可以保护其数字资产并维持客户的信任。 金融机构面临的挑战 1.缺乏全网数据支撑…

Django交易商场

Hello&#xff0c;我是小恒不会java 最近学习django&#xff0c;写了一个demo,学到了不少东西。 我在GitHub上开源了&#xff0c;提示‘自行查看代码&#xff0c;维护&#xff0c;运行’。 最近有事&#xff0c;先发布代码了&#xff0c;我就随缘维护更新吧 介绍&#xff1a; 定…

spikingjelly训练自己的网络---量化 --测试

第二个 但是我发现&#xff0c;都要反量化&#xff0c;因为pytorch是只能支持浮点数的。 https://blog.csdn.net/lai_cheng/article/details/118961420 Pytorch的量化大致分为三种&#xff1a;模型训练完毕后动态量化、模型训练完毕后静态量化、模型训练中开启量化&#xff0c;…