爬虫 新闻网站 以湖南法治报为例(含详细注释,控制台版) V3.0 升级 自定义查询关键词、时间段、粗略判断新闻是否和优化营商环境相关,避免自己再一个个判断

 

目标网站:湖南法治报

爬取目的:为了获取某一地区更全面的在湖南法治报的已发布的和优化营商环境相关的宣传新闻稿,同时也让自己的工作更便捷

环境:Pycharm2021,Python3.10,

安装的包:requests,csv,bs4,datetime

v3.0 版本特点:从控制台输入时间段与搜索关键词,获取指定时间段的新闻数据,筛选出含有想要查找的的关键词的新闻内容,同时标注新闻是否和优化营商环境相关(粗略判断新闻是否和优化营商环境相关),并存储起来。

 1 首先分析网页

(查看数据返回方式,发现网站不用像红网那样设置各种headers了,可以直接爬)

发现在这个页面只有文章标题和发布时间,以及文章链接的信息(当然文章有图片的就还有图片信息)

2 再看文章内容页面

(像我就只要文字部分就行了,不需要图片)

3 修改的主要代码:(粗略判断新闻是否和优化营商环境相关)

 4 运行结果:

爬虫 新闻网站 以湖南法治报为例(含详细注释,控制台版) V3.0 升级 自定义查询关键词、时间段、粗略判断新闻是否和优化营商环境相关,避免自己再一个个判断

5 完整代码,(详细注释)
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2024/4/6 15:36
# @Author : LanXiaoFang
# @Site :
# @File : efaw_v3.py
# @Software: PyCharm
# V3版本,主要是增加二级搜索,可以是在市州动态下某一地区的新闻,再搜索这一地区新闻内容中满足含有某些关键词的新闻;比如零陵的新闻中内容含有和优化营商环境有关的新闻
import csv
import datetime
import requests
from bs4 import BeautifulSoup

# 由于发现湖南法治报没有设置反爬机制,因为我们不用反反爬了,可以直接爬数据了
# 市州动态 下的对应市州的编号
szId = {"长沙": "14129", "株洲": "14130", "湘潭": "14223", "衡阳": "14224", "邵阳": "14225", "岳阳": "14226",
        "常德": "14227",
        "张家界": "14228", "益阳": "14229", "郴州": "14230", "永州": "14231", "怀化": "14232", "娄底": "14233",
        "湘西": "14234"}

# 输入你想要获取的湖南省下的哪一市州的新闻 比如 湖南省下的永州市,直接输入 永州 即可
sz = "永州"
# 根据输入的湖南省下的市州 得到对应的市州编号 再拼接入链接
url = "http://www.efaw.cn/list/" + szId[sz]
# 输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵
# search_keyword = '双牌'
print("输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵")
search_keyword = input("输入你想要的关键词:")
# 二级搜索 目前只设定了三个词,后续有时间优化一下这部分
search_keyword2 = ['优化', '营商', '环境']
# 标题就含有关键词的计数器
title_Yes_Num = 0
# 标题不含有关键词但是内容含有关键词的计数器
title_No_Num = 0
# 新闻来源级别
level = "省级"
# 自定义需要获取的新闻的时间段
print("自定义需要获取的新闻的时间段 格式如: 2024 3 1")
# 开始时间
# start_time = '2024 3 1'
start_time = input("请输入开始时间:")
start_time = datetime.datetime.strptime(start_time, '%Y %m %d')
# 截止时间
# end_time = '2024 4 6'
end_time = input("请输入截止时间:")
end_time = datetime.datetime.strptime(end_time, '%Y %m %d')
# 用于计数爬到第几个新闻
count_cc = 0
""" 
爬虫思路:
首先最开始是打开要爬取的网站,然后分析怎样获取需要的数据最完整和便捷
一开始看到搜索其实是想直接搜关键词获取新闻的,但是发现通过搜索框获得到新闻数据不如市州动态下的全面,
所以还是打算一条一条新闻比对是否符合自定义关键词
1 首先进入市州动态获取到某市州动态下的所有新闻数据
2 根据具体新闻链接进入新闻页面,获取到新闻信息
"""

# # 创建CSV文件并写入头部信息
with open(search_keyword + 'yhyshj_湖南法治报_标题含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(
        ['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源', '优化营商环境相关'])  # 根据实际情况定义列名
with open(search_keyword + 'yhyshj_湖南法治报_内容含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(
        ['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源', '优化营商环境相关'])  # 根据实际情况定义列名

# http://www.efaw.cn/list/14231?page=1
page = 1
# while page <= 20:  # 从这里修改数字以控制要多少页的新闻内容,,page<=20page从1开始一直到20
while page > 0:
    # 拼接出每一页的url
    url_page = url + "?page=" + str(page)
    html_all = requests.get(url_page)
    html_all.encoding = 'utf-8'
    print(page, '页', url_page)
    if html_all.status_code == 200:
        soups = BeautifulSoup(html_all.text, 'html.parser')
        article_info = soups.find_all('ul', class_='list_content')
        for i in article_info:
            result_info = i.find_all('div')
            for art in result_info:
                article_href = art.a.get('href')  # 文章链接
                # print(article_href)
                article_title = art.a.get('title')  # 文章标题
                article_time = art.i.text  # 文章发布时间  显示为:发布时间:2024-04-02 10:08:03
                # 因为只要年月日部分的时间,因此把一些不需要的字符去掉
                article_time = article_time[2 + article_time.index('间:'):]
                article_time = article_time[:article_time.index(':') - 3]
                article_time = article_time.replace('-', '.')

                article_time_se = datetime.datetime.strptime(article_time, '%Y.%m.%d')
                count_cc += 1
                # print('--page', page, 'count_cc', count_cc, '--title:', article_title, 'time:', article_time, 'href:',
                #       article_href)
                # 设立一个标识,默认为0和营商环境无关,1有关
                yshj = 0
                # 现在有个问题怎么退出循环,时间不满足就退出:现在获取到的新闻的时间<开始时间就退出
                if article_time_se < start_time:
                    page = -1
                    break
                # 只把时间满足要求的数据才继续下面的操作 并把数据存入表格
                if start_time <= article_time_se <= end_time:
                    # 从文章内容中获取到来源
                    html_article_info_sk = requests.get(article_href)
                    html_article_info_sk.encoding = 'utf-8'

                    if html_article_info_sk.status_code == 200:
                        soups_sk = BeautifulSoup(html_article_info_sk.text, 'html.parser')
                        # article_info_sk:文章的相关内容,包括标题、发表时间、来源、编辑、作者、文章内容
                        article_info_sk = soups_sk.find_all('div', class_='video_left')

                        # 其实在这里我想获取到具体的来源,这一段因为在新闻详情页面,如果 来源 为 双牌县优化办 ,那么这条新闻就是优化办推过去的
                        spxq_title_source = soups_sk.find('div', class_='spxq_title_source').text
                        # 文章信息来源 显示为: 来源:湖南法治报
                        atricle_source = spxq_title_source[
                                         spxq_title_source.index('来源:') + 3:spxq_title_source.index('|')]

                    article_info_sk_string = str(article_info_sk)  # 这里要把article_info_sk字符串化,不然无法判断关键词是否在内容中存在
                    # 判断search_keyword2中关键词是否在article_info_sk内容中存在
                    if search_keyword2[0] in article_info_sk_string or search_keyword2[1] in article_info_sk_string or \
                            search_keyword2[2] in article_info_sk_string:
                        print("----和优化营商环境有关----")
                        yshj = 1

                    # 在这里可以从标题判断是否含有搜索的关键词search_keyword,如果有则可以直接存储这条新闻信息,如果没有则继续查看新闻内容,看是否含有关键词信息
                    if search_keyword in article_title:  # 标题判断含有搜索的关键词search_keyword
                        print(article_info_sk)
                        title_Yes_Num += 1
                        with open(search_keyword + 'yhyshj_湖南法治报_标题含关键词.csv', 'a', newline='',
                                  encoding='utf-8') as csvfile:

                            writer = csv.writer(csvfile)
                            writer.writerow(
                                [title_Yes_Num, article_title, "湖南法治报", level, article_time, article_href,
                                 atricle_source, yshj])

                        # print("Yes Tile have SK !!!!!", title_Yes_Num)
                        print(title_Yes_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                              'source:', atricle_source)

                    else:  # 标题判断不含搜索的关键词search_keyword
                        if search_keyword in article_info_sk:
                            title_No_Num += 1
                            with open(search_keyword + 'yhyshj_湖南法治报_标题不含内容含关键词.csv', 'a', newline='',
                                      encoding='utf-8') as csvfile:
                                writer = csv.writer(csvfile)
                                writer.writerow(
                                    [title_No_Num, article_title, "湖南法治报", level, article_time, article_href,
                                     atricle_source, yshj])
                            # print("Yes Content have SK !!!!!", article_info_sk)
                            print(title_No_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                                  'source:', atricle_source)
    page += 1

print("#### 你获取的关键词", search_keyword, '时间从', start_time, '~', end_time, '的数据已经获取完!')

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/521795.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

强力推荐一款具有故障保护和CAN FD 功能的隔离CAN收发器 SiLM5150S

控制器局域网总线(CAN&#xff0c;Controller Area Network)&#xff0c;是一种用于实时应用的串行通讯协议总线&#xff0c;它可以使用双绞线来传输信号&#xff0c;是目前应用最广泛的现场总线之一。CAN协议具有实时性强、可靠性高、传输距离远的特点&#xff0c;适用于各种复…

Python中定时任务调度利器APScheduler

在Python开发中&#xff0c;经常需要执行一些定时任务&#xff0c;比如定期发送邮件、定期更新数据等。APScheduler&#xff08;Advanced Python Scheduler&#xff09;是一个强大且易用的Python库&#xff0c;专门用于定时任务调度。它提供了丰富的调度接口&#xff0c;使得定…

51单片机学习笔记14 LCD1602显示屏使用

51单片机学习笔记14 LCD1602显示屏使用 一、LCD1602介绍1. 简介2. 引脚定义3. DDRAM4. 字模5. 指令&#xff08;1&#xff09;清屏指令 0x01&#xff08;2&#xff09;光标归位指令 0x02&#xff08;3&#xff09;进入模式设置指令 0x06&#xff08;4&#xff09;显示开关控制指…

短毛猫也能吃得好!揭秘宠物店推荐猫粮的秘密!

短毛猫通常毛发短而浓密&#xff0c;性格温顺&#xff0c;容易打理。那么&#xff0c;对于我们这些爱护短毛猫的朋友们来说&#xff0c;选择一款合适的猫粮就显得尤为重要了。今天&#xff0c;我要向大家推荐一款我个人非常喜欢的猫粮——福派斯三文鱼益生菌猫粮。 &#x1f41…

SAP操作教程第7期:SAP B1日期偏离允许范围解决方法

作为一种灵活的工具&#xff0c;自定义能够充分满足企业多样的需求。它允许你根据个人或团队的具体需求和情况来调整计划。通过自定义&#xff0c;你可以根据优先级、时间表、资源分配和风险管理等因素&#xff0c;制定更具体、实用的计划。 下面我们将详细探讨在SAP Business …

ARM_04

1.总结二进制信号量和计数型信号量的区别&#xff0c;以及他们的使用场景。 二进制信号量&#xff1a;只有0和1&#xff0c;一般用于资源共享时使用 计数型信号量&#xff1a;值一般是大于等于2的&#xff0c;可以实现同步互斥作用 2.使用技术型信号量完成生产者和消费者模型…

vue快速入门(九)事件绑定参数传递

注释很详细&#xff0c;直接上代码 上一篇 新增内容 事件绑定基础模板事件传参方法 源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, init…

蓝桥杯嵌入式(G431)备赛笔记——LED

目录 cubeMX配置&#xff1a; 代码模板&#xff1a; 注意&#xff1a; cubeMX配置&#xff1a; 原理图&#xff0c;其中PD2高电平使能锁存器&#xff0c;PC8-15默认给高电平&#xff0c;放置上电初始化LED亮 74HC573是八路输出锁存器 1脚是使能&#xff0c;低电平有效&#…

【JavaEE】浅谈线程(一)

线程 前言线程的由来线程是什么线程的属性线程更高效的原因举个例子&#xff08;线程便利性的体现&#xff09; 多线程代码线程并发执行的代码jconsole(观测多线程) 线程的调度问题创建线程的几种方法1&#xff09;通过继承Thread 重写run2&#xff09;使用Runnable接口 重写ru…

Ubuntu系统同时使用AMD和NVIDIA GPU出现的问题及解决

问题产生&#xff1a; Ubuntu 22.04系统同时使用了AMD W7900和NVIDIA GTX 1070Ti&#xff0c;想用1070Ti做显示&#xff0c;W7900做运算。结果Ubuntu 22.04系统不能启动了。 解决方法&#xff1a; 同时按下Ctrl和Alt键&#xff0c;并保持按住。在此过程中&#xff0c;按一下…

Windows Server 2012 R2安装远程桌面服务

文章目录 一、打开【服务器管理器】二、点击【添加角色和功能】三、点击【下一步】四、点击【下一步】五、点击【下一步】![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/05b61a830faf477e81f858ec00bbdfff.png)六、勾选【远程桌面服务】→点击【下一步】七、点击【…

ruoyi-nbcio-plus基于vue3的flowable流程设计器组件的升级修改

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

删除有序链表中的重复元素

. - 力扣&#xff08;LeetCode&#xff09; 给定一个已排序的链表的头 head &#xff0c; 删除原始链表中所有重复数字的节点&#xff0c;只留下不同的数字 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,3,4,4,5] 输出&#xff1a;[1,2,5]示例 2&…

软考系统规划与管理师-第1章考点思维导图

系规&#xff5c;教程第1章脑图发布&#xff0c;用4幅图掌控信息系统综合知识的考点地图 2024年指尖疯在9年之后&#xff0c;首次扩展到系规课程。 虽然目前系统规划与管理师的教程是否改版存在不确定性&#xff0c;但是不影响咱们先概要了解当前的教程&#xff0c;使用思维导图…

Python实现 AI 绘图(非常详细)零基础入门到精通,收藏这一篇就够了

今天给大家带来了 Python 对接阿里大模型&#xff0c;通过 AI 实现文本生成图片。 相关资料 这个功能使用的主要 API 是阿里的大模型服务。 开通服务 阿里文档 https://help.aliyun.com/zh/dashscope/developer-reference/quick-start-1?disableWebsiteRedirecttrue 获取 a…

阿里云4核8G服务器ECS通用算力型u1实例优惠价格

阿里云4核8G服务器优惠价格955元一年&#xff0c;配置为ECS通用算力型u1实例&#xff08;ecs.u1-c1m2.xlarge&#xff09;4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选&#xff0c;CPU采用Intel(R) Xeon(R) Platinum处理器&#xff0c;阿里云活动链接 aliyunfuwuq…

DFS:floodfill算法解决矩阵联通块问题

floodfill&#xff0c;翻译为洪水灌溉&#xff0c;而floodfill算法本质上是为了解决在矩阵中性质相同的联通块问题。 一、图像渲染 . - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int dx[4]{0,0,1,-1};int dy[4]{1,-1,0,0};int prev;//记住初始值int m,…

内容检索(2024.04.07)

随着创作数量的增加&#xff0c;博客文章所涉及的内容越来越庞杂&#xff0c;为了更为方便地阅读&#xff0c;后续更新发布的文章将陆续在此汇总并附上原文链接&#xff0c;感兴趣的小伙伴们可持续关注文章发布动态&#xff01; 本期更新内容&#xff1a; 1. 真实案例分享--P…

能不能换DB吗?--抽象工厂模式

1.1 就不能不换DB吗&#xff1f; 都是换数据库惹的祸。 "我们团队前段时间用.net的C#来开发好一个项目&#xff0c;是给一家企业做的电子商务网站&#xff0c;是用SQL Server作为数据库的&#xff0c;应该说上线后除了开始有些小问题&#xff0c;基本都还可以。而后&#…

政安晨:【Keras机器学习实践要点】(十八)—— 利用视觉转换器进行图像分类

目录 简介 设置 准备数据 配置超参数 使用数据增强 实施多层感知器&#xff08;MLP&#xff09; 将创建修补程序作为一个层 实施补丁编码层 建立 ViT 模型 编译、培训和评估模式 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: T…