使用Python爬虫实时监控行业新闻案例

目录

    • 背景
    • 环境准备
    • 请求网页数据
    • 解析网页数据
    • 定时任务
    • 综合代码
    • 使用代理IP提升稳定性
    • 运行截图与完整代码
    • 总结

在互联网时代,新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻,自动化抓取并定期输出这些新闻,Python爬虫可以帮你轻松实现这一目标。

本文将通过一个案例,带你一步一步实现一个简单的Python爬虫,用于实时监控新闻网站的数据。

背景

在某些行业中,获取最新的新闻信息至关重要。通过定期抓取新闻网站的头条新闻,我们可以为用户提供行业热点的动态变化。本文的目标是创建一个爬虫,定期访问一个新闻网站,获取新闻的标题和链接,并打印出来。

环境准备

在开始编写代码之前,我们需要安装几个Python的第三方库:

  • requests:用于发送HTTP请求。
  • beautifulsoup4:用于解析网页HTML内容。
  • schedule:用于设置定时任务,使爬虫能够自动运行。

可以通过以下命令安装这些库:

pip install requests beautifulsoup4 schedule

请求网页数据

在爬取新闻之前,我们首先要获取目标网页的HTML内容。通过requests库可以方便地发送GET请求,并返回页面内容。以下是请求网页的代码:

import requests

# 请求头配置
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 爬虫请求函数
def fetch_news(url):
    try:
        print(f"Attempting to fetch: {url}")  # 调试信息
        response = requests.get(url, headers=HEADERS, timeout=10)
        print(f"Status code: {response.status_code}")  # 打印状态码
        if response.status_code == 200:
            return response.text
        else:
            print(f"Failed to fetch {url}. Status code: {response.status_code}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None
  • HEADERS用于模拟浏览器访问,避免被网站屏蔽。
  • fetch_news函数发送GET请求并返回网页内容。如果请求成功,则返回HTML内容。

解析网页数据

一旦我们获取了网页的HTML内容,就需要解析这些内容,提取出我们关心的数据(例如新闻标题和链接)。这里我们使用beautifulsoup4来解析HTML并提取新闻数据。

from bs4 import BeautifulSoup

# 解析Al Jazeera新闻页面
def parse_aljazeera_page(page_content):
    soup = BeautifulSoup(page_content, 'html.parser')
    news_items = []

    articles = soup.find_all('a', class_='u-clickable-card__link')
    print(f"Found {len(articles)} articles on Al Jazeera")

    for article in articles:
        title_tag = article.find('h3')
        if title_tag:
            title = title_tag.text.strip()
            link = article['href']
            if link.startswith('http'):
                news_items.append({
                    'title': title,
                    'link': link
                })
            else:
                # 如果链接是相对路径,拼接完整链接
                full_link = f"https://www.aljazeera.com{link}"
                news_items.append({
                    'title': title,
                    'link': full_link
                })
    
    return news_items
  • BeautifulSoup用于解析HTML内容。
  • parse_aljazeera_page函数从页面中找到所有新闻条目,并提取每个新闻的标题和链接。

定时任务

爬虫的核心功能是定期抓取新闻信息。为了实现这一点,我们可以使用schedule库来设置定时任务,定时运行爬虫。

import schedule
import time

# 定时执行任务
def run_scheduler():
    # 每隔10分钟抓取一次新闻
    schedule.every(10).minutes.do(monitor_news)

    while True:
        print("Scheduler is running...")  # 调试信息
        schedule.run_pending()
        time.sleep(1)
  • 我们使用schedule.every(10).minutes.do(monitor_news)设置每10分钟执行一次monitor_news函数,获取并输出新闻。

综合代码

将之前的部分代码整合在一起,并加入一个监控新闻的函数:

def monitor_news():
    url = 'https://www.aljazeera.com/'
    page_content = fetch_news(url)
    
    if page_content:
        news_items = parse_aljazeera_page(page_content)
        if news_items:
            print(f"News from {url}:")
            for news in news_items:
                print(f"Title: {news['title']}")
                print(f"Link: {news['link']}")
                print("-" * 50)
        else:
            print(f"No news items found at {url}.")
    else:
        print(f"Failed to fetch {url}.")

if __name__ == '__main__':
    monitor_news()  # 手动调用一次,看看是否能抓取新闻
    run_scheduler()  # 继续运行定时任务

使用代理IP提升稳定性

爬虫在运行时,可能会遇到反爬机制导致IP被封禁的情况。为了规避这一问题,我们可以通过配置代理IP来提高爬虫的稳定性。下面是如何使用亮数据代理API的配置示例:

# 代理API配置
PROXY_API_URL = 'https://api.brightdata.com/proxy'
API_KEY = 'your_api_key'  # 请替换为实际API密钥
  • PROXY_API_URL:亮数据的代理API接口地址。
  • API_KEY:你的API密钥,用于认证API请求。

通过修改爬虫的请求函数,将代理配置加到请求中,可以让爬虫通过多个IP地址进行请求,从而降低被封禁的风险:

def fetch_news_with_proxy(url):
    try:
        print(f"Attempting to fetch with proxy: {url}")  # 调试信息
        response = requests.get(
            url,
            headers=HEADERS,
            proxies={"http": PROXY_API_URL, "https": PROXY_API_URL},
            timeout=10
        )
        print(f"Status code: {response.status_code}")  # 打印状态码
        if response.status_code == 200:
            return response.text
        else:
            print(f"Failed to fetch {url}. Status code: {response.status_code}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

运行截图与完整代码

运行截图:

在这里插入图片描述
完整代码如下

import requests
from bs4 import BeautifulSoup
import schedule
import time

# 请求头配置
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 亮数据代理API配置
PROXY_API_URL = 'https://api.brightdata.com/proxy'
API_KEY = 'your_api_key'  # 请替换为实际API密钥

# 爬虫请求函数
def fetch_news(url):
    try:
        print(f"Attempting to fetch: {url}")  # 调试信息
        response = requests.get(url, headers=HEADERS, timeout=10)
        print(f"Status code: {response.status_code}")  # 打印状态码
        if response.status_code == 200:
            return response.text
        else:
            print(f"Failed to fetch {url}. Status code: {response.status_code}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

# 解析Al Jazeera新闻页面
def parse_aljazeera_page(page_content):
    soup = BeautifulSoup(page_content, 'html.parser')
    news_items = []

    articles = soup.find_all('a', class_='u-clickable-card__link')
    print(f"Found {len(articles)} articles on Al Jazeera")

    for article in articles:
        title_tag = article.find('h3')
        if title_tag:
            title = title_tag.text.strip()
            link = article['href']
            if link.startswith('http'):
                news_items.append({
                    'title': title,
                    'link': link
                })
            else:
                # 如果链接是相对路径,拼接完整链接
                full_link = f"https://www.aljazeera.com{link}"
                news_items.append({
                    'title': title,
                    'link': full_link
                })
    
    return news_items

# 定时任务
def run_scheduler():
    schedule.every(10).minutes.do(monitor_news)

    while True:
        print("Scheduler is running...")  # 调试信息
        schedule.run_pending()
        time.sleep(1)

# 新闻监控函数
def monitor_news():
    url = 'https://www.aljazeera.com/'
    page_content = fetch_news(url)
    
    if page_content:
        news_items = parse_aljazeera_page(page_content)
        if news_items:
            print(f"News from {url}:")
            for news in news_items:
                print(f"Title: {news['title']}")
                print(f"Link: {news['link']}")
                print("-" * 50)
        else:
            print(f"No news items found at {url}.")
    else:
        print(f"Failed to fetch {url}.")

# 主程序
if __name__ == '__main__':
    monitor_news()  # 手动调用一次,看看是否能抓取新闻
    run_scheduler()  # 继续运行定时任务

通过这一方式,爬虫不仅能抓取并显示新闻内容,还能避开反爬机制,提升抓取稳定性。

总结

通过上述步骤,我们实现了一个简单的Python爬虫,用于实时抓取Al Jazeera新闻网站的数据,并通过定时任务每隔一定时间自动抓取一次。在爬虫运行过程中,可能会遇到反爬机制导致IP被封禁的情况。为了避免这个问题,我们可以通过配置代理IP来提高爬虫的稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/970675.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vs2022支持.netframework4.0

下载nuget包 .netframework4.0 解压nuget 复制到C:\Program Files (x86)\Reference Assemblies\Microsoft\Framework\.NETFramework 参考 https://www.cnblogs.com/bdqczhl/p/18670152 https://blog.csdn.net/xiaomeng1998_/article/details/135979884

【云安全】云原生- K8S kubeconfig 文件泄露

什么是 kubeconfig 文件? kubeconfig 文件是 Kubernetes 的配置文件,用于存储集群的访问凭证、API Server 的地址和认证信息,允许用户和 kubectl 等工具与 Kubernetes 集群进行交互。它通常包含多个集群的配置,支持通过上下文&am…

IoTDB 常见问题 QA 第五期

关于 IoTDB 的 Q & A 情人节之际,让 IoTDB Q&A 陪您一起共度解惑!我们将定期汇总我们将定期汇总社区讨论频繁的问题,并展开进行详细回答,通过积累常见问题“小百科”,方便大家使用 IoTDB。 Q1:导入…

SwiftUI 5.0 中宝藏视图修改器 containerRelativeFrame 趣谈(下)

概览 小伙伴们都知道,为了将 SwiftUI 中多如牛毛的视图井然有序、有条不紊的组织起来,我们必须借助容器(Container)伏虎降龙般地威力。而如何最大限度的让容器中的子视图能根据容器尺寸安排自己的空间,则需要一些技术手段来洞幽察微。 在过去,我们往往使用 GeometryRead…

家里WiFi信号穿墙后信号太差怎么处理?

一、首先在调制解调器(俗称:猫)测试网速,网速达不到联系运营商; 二、网线影响不大,5类网线跑500M完全没问题; 三、可以在卧室增加辅助路由器(例如小米AX系列)90~200元区…

windows,docker停止所有容器

CMD命令窗口 你可以尝试使用以下命令来停止所有正在运行的Docker容器: FOR /f "tokens*" %i IN (docker ps -q) DO docker stop %i这条命令的工作原理是: docker ps -q 列出所有正在运行的容器的ID。 FOR /f "tokens*" %i IN (c…

Jenkins介绍

什么是Jenkins Jenkins 是一个开源的自动化服务器,主要用于持续集成和持续交付(CI/CD)。它帮助开发团队自动化构建、测试和部署软件,从而提高开发效率和软件质量。 如果一个系统是前后端分离的开发模式,在集成阶段会需…

解锁电商数据宝藏:淘宝商品详情API实战指南

在电商蓬勃发展的今天,数据已成为驱动业务增长的核心引擎。对于商家、开发者以及数据分析师而言,获取精准、实时的商品数据至关重要。而淘宝,作为国内最大的电商平台,其海量商品数据更是蕴含着巨大的价值。 本文将带你深入探索淘…

嵌入式硬件篇---OpenMV的硬件流和软件流

文章目录 前言一、硬件流控制(Hardware Flow Control)1. 基本原理RTSCTS 2. OpenMV中的实现• 硬件要求• 代码配置• 工作流程 二、软件流控制(Software Flow Control)1. 基本原理XONXOFF 2. OpenMV中的实现• 代码配置• 工作流…

小米平板怎么和电脑共享屏幕

最近尝试使用小米平板和电脑屏幕分屏互联 发现是需要做特殊处理的,需要下载一款电脑安装包:小米妙享 关于这个安装包,想吐槽的是: 没有找到官网渠道,是通过其他网络方式查到下载的 不附录链接,原因是因为地…

ML.Net二元分类

ML.Net二元分类 文章目录 ML.Net二元分类前言项目的创建机器学习模型的创建添加模型选择方案训练环境的选择训练数据的添加训练数据的选择训练数据的格式要预测列的选择模型评估模型的使用总结前言 ‌ML.NET‌是由Microsoft为.NET开发者平台创建的免费、开源、跨平台的机器学习…

在本地校验密码或弱口令 (windows)

# 0x00 背景 需求是验证服务器的弱口令,如果通过网络侧校验可能会造成账户锁定风险。在本地校验不会有锁定风险或频率限制。 # 0x01 实践 ## 1 使用 net use 命令 可以通过命令行使用 net use 命令来验证本地账户的密码。打开命令提示符(CMD&#xff0…

全方位养生指南:打造健康生活蓝图

在这个追求高效与速度的时代,健康养生的重要性愈发凸显,它是我们享受美好生活的前提。下面,让我们从饮食、运动、作息、情绪管理四个维度,解锁健康密码。 饮食是养生的根基,合理搭配才能滋养身心。一日三餐&#xff0c…

【Java 面试 八股文】Spring Cloud 篇

Spring Cloud 篇 1. Spring Cloud 5大组件有哪些?2. 服务注册和发现是什么意思?Spring Cloud 如何实现服务注册发现?3. 我看你之前也用过nacos,你能说下nacos与eureka的区别?4. 你们项目负载均衡如何实现的&#xff1f…

【动态路由】系统Web URL资源整合系列(后端技术实现)【nodejs实现】

需求说明 软件功能需求:反向代理功能(描述:apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、 oa-portal 业务应用等多个web资…

凸包算法—— cad c#二次开发

效果如下&#xff1a; 代码如下&#xff1a; using IfoxDemo; //[assembly: CommandClass(typeof(IFoxDemo.凸包class))]//只允许此类快捷键命令 namespace IFoxDemo {public class 凸包class{public static class 凸包助手{/// <summary>/// 计算点集的凸包并返回多段线…

【设计模式】【行为型模式】解释器模式(Interpreter)

&#x1f44b;hi&#xff0c;我不是一名外包公司的员工&#xff0c;也不会偷吃茶水间的零食&#xff0c;我的梦想是能写高端CRUD &#x1f525; 2025本人正在沉淀中… 博客更新速度 &#x1f44d; 欢迎点赞、收藏、关注&#xff0c;跟上我的更新节奏 &#x1f3b5; 当你的天空突…

进阶数据结构——离散化

目录 一、离散化的核心思想与本质二、离散化的应用场景三、离散化的实现步骤四、离散化的复杂度分析五、离散化的优化技巧六、常见误区与调试技巧七、代码模版&#xff08;c&#xff09;八、经典例题数列离散化寻找满足高度的最大山峦美丽值 九、总结与学习建议 一、离散化的核…

VNC远程控制Mac

前言 macOS系统自带有VNC远程桌面&#xff0c;我们可以在控制端上安装配置VNC客户端&#xff0c;以此来实现远程控制macOS。但通常需要在不同网络下进行远程控制&#xff0c;为此&#xff0c;我们可以在macOS被控端上使用cpolar做内网穿透&#xff0c;映射VNC默认端口5…

[0689].第04节:Kafka与第三方的集成 – Kafka集成SpringBoot

Kafka笔记大纲 SpringBoot 是一个在 JavaEE 开发中非常常用的组件。可以用于 Kafka 的生产者&#xff0c;也可以用于 SpringBoot 的消费者 一、SpringBoot 环境准备 1.1.创建一个 Spring Initializr 1.2.引入场景启动器&#xff1a; <?xml version"1.0" encod…