【python】爬虫记录每小时金价

数据来源:

https://www.cngold.org/img_date/

因为这个网站是数据随时变动的,用requests、BeautifulSoup的方式解析html的话,数据的位置显示的是“--”,并不能取到数据。

所以采用webdriver访问网站,然后从界面上获取金价。

1、建表

在本地(服务器)上的mysql上建表,主要字段:sku、date_time、price,分别对应产品(也就是黄金)、时间、价格

2、读取金价函数

这个函数主要就是读取金价,并调用插入sql的函数:


def extract_info(url,id):
    print('开始')
    chrome_options = Options()
    chrome_options.add_argument('--disable-infobars')
    chrome_options.add_argument('--window-size=1920,1080')  # 可以设置浏览器窗口大小
    chrome_options.add_argument('--start-maximized')  # 可以让浏览器窗口最大化
    chrome_options.add_argument('--disable-extensions')  # 禁用扩展
    chrome_options.add_argument('--no-sandbox')  # 以最高权限运行
    chrome_options.add_argument('--disable-dev-shm-usage')  # 用于解决Chrome crash问题
    chrome_options.add_argument('--disable-browser-side-navigation')  # 禁用浏览器端导航
    chrome_options.add_argument('--enable-automation')  # 允许自动化
    chrome_options.add_argument("--headless")  # 设置Chrome无头模式
    print('过程1')
    driver=webdriver.Chrome(options=chrome_options)
    driver.get(url)
    print('过程2')
    driver.maximize_window()
    #time.sleep(5)
    text_list=driver.find_element(by=webdriver.common.by.By.XPATH,value='//html/body/div[3]/div/div[2]/div/div[3]/table/tbody/tr/td[2]/font')
    price_hour=text_list.text
    sql = 'insert into reptile.gold_price_log values("' + str(id) + '","' + datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + '",' + str(price_hour) + ');'
    print(sql)
    sql_insert(sql, id)

数据插入函数:


def sql_insert(sql,id):
    sql=sqlalchemy.text(sql)
    print(sql_getcnt(id))
    if sql_getcnt(id) == 0:
        try:
            con.execute(sql)
            con.commit()
        except:
            print('执行失败')
            print(sql)
3、数据验证函数

因为爬取数据的目标是每个小时记录一次,为了避免测试、调试的数据干扰,做一个验证的方法,如果这个小时已经有数据了,就不再运行上个函数了:


def sql_getcnt(id):
    g_sql = '''
            select
            count(*) as cnt
            from reptile.gold_price_log
            where sku="黄金"
            and date_format(date_time,'%Y-%m-%d %H:00:00')="''' + datetime.datetime.now().strftime('%Y-%m-%d %H:00:00') + '''"
            order by sku desc
            ,date_time desc
            '''

    g_sql = sqlalchemy.text(g_sql)
    data = pd.read_sql_query(sql=g_sql, con=con, index_col=['cnt'])
    cnt = list(data.index)[0]
    #print(cnt)
    return cnt
4、主方法

url_list=['https://www.cngold.org/img_date/']
sku_list=['黄金']

for i in range(len(sku_list)):
    print(sql_getcnt(sku_list[i]))
    if sql_getcnt(sku_list[i])>100:
        time.sleep(random.uniform(1, 5))
        print(str(sku_list[i])+'已存在')
    else:
        url_id=url_list[i]
        extract_info(url_id,sku_list[i])

有些写法是之前脚本复制过来的,所以偶尔会有些奇怪哈哈哈。

5、配置每小时调用

因为这个脚本是设置在了云服务器上,所以要在linux服务器上设置定时执行,我这边的逻辑是shell脚本调用python脚本,然后定时执行shell脚本。

shell脚本内容:

然后:

crontab -e

这样,就可以每小时记录金价了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668529.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vscode怎么拷贝插件到另一台电脑

说明 vscode插件默认存放在 C:\Users\用户名\.vscode 目录下的 extensions 文件夹中 方法 拷贝 C:\Users\用户名\.vscode 目录下的 extensions 文件夹到另一台电脑的C:\Users\用户名\.vscode 目录下 C:\Users\用户名\.vscode

3. MySQL 数据表的基本操作

文章目录 【 1. MySQL 创建数据表 】【 2. MySQL 查看表 】2.1 DESCRIBE/DESC 以表格的形式展示表2.2 SHOW CREATE TABLE 以SQL语句的形式展示表 【 3. MySQL 修改数据表 】3.1 修改表名3.2 修改表字符集3.3 添加字段在末尾添加字段在开头添加字段在中间添加字段 3.3 修改/删除…

Java字符串String详解

Java中的String类作为存储和操作文本数据的基本类型,是开发过程中最常用的类型。 String类型的声明及初始化与基本数据类型非常相似: String name "lcy";但是String类型是引用类型,有着非常丰富的处理字符串的方法。正是因为其重…

LabVIEW远程开发与调试

在现代项目开发中,远程开发与调试已经成为一种常见的模式,特别是在使用LabVIEW进行工程项目时。本文将详细分析LabVIEW远程开发与调试的优缺点,并从多个角度说明如何建议客户采用这种方式,以提高项目效率和质量。 优点 灵活性和便…

全面理解渗透测试

揭秘网络安全的秘密武器:全面理解渗透测试 在数字化时代,网络安全已成为人们关注的焦点。网络攻击和数据泄露事件频发,给个人、企业和国家带来了巨大的损失。为了应对这一挑战,渗透测试作为一种重要的网络安全评估手段&#xff0…

Java之IO流

一、引言 (1)解释: i:input (输入) o:output (输出) (2)图解 注意: 1、Xxx 这个程序一旦在桌面关闭掉了,也就是运行完…

Apache安装教程

目录 一、Apache知识点 Apache服务简介 Apache下载网址 Apache的主要特点 二、Apache服务的搭建 1. 关闭防火墙 2. 安装依赖环境以及编译工具 3. 将apache安装包拖入xshell内 4. 解压压缩包 5. 进入httpd主包 6. 指定安装路径,启用字符集支持等 7. 优化执…

(2021,AFT,MHA,RWKV 基础,线性内存复杂度)无注意力的 Transformer

An Attention Free Transformer 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 多头注意力(MHA) 3. 方法 3.1 无注意力 Transformer 3.2 AFT 变体…

【python】OpenCV—Tracking(10.2)

文章目录 BackgroundSubtractorcreateBackgroundSubtractorMOG2createBackgroundSubtractorKNN BackgroundSubtractor Opencv 有三种背景分割器 K-Nearest:KNN Mixture of Gaussian(MOG2) Geometric Multigid(GMG) …

【题解 | 分享】2023年十四届蓝桥杯国赛(Java B组)

互质 答案:640720414 参考: public class Main {static int mod 1000000007;public static void main(String[] args) {long sum power(2023, 2023);long p1 ((sum % mod) * power( 7, mod - 2)) % mod;long p2 ((sum % mod) * power( 17, mod -…

高效派单的秘诀:探索运维工单处理软件的五大关键功能-亿发

在快节奏的现代企业运营中,如何高效管理生产流程,确保任务按时完成,同时保持产品质量和客户满意度,是每个管理者面临的重要课题。工单管理系统,作为企业数字化转型的关键工具,正逐渐成为解决这些问题的利器…

大模型微调常见方法

0, prefix tuning prefix-tuning 跟 soft prompt tuning 类似,只不过,soft prompt tuning 仅仅针对 transformer模型的输入进行,而prefixt-tuning 是针对 每一个 transformer block进行 soft prompt tuning 跟 hard prompt tunin…

AI预测体彩排3采取888=3策略+和值012路一缩定乾坤测试6月1日预测第8弹

今天继续基于8883的大底进行测试,今天继续测试,好了,直接上结果吧~ 首先,888定位如下: 百位:8,9,7,6,4,3,2,0 十位:4,5,3,2,7,8,0,9 个位:3,4,5,2,…

【Python系列】Python 中方法定义与方法调用详解

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

处理3D数据的强大工具 CloudCompare (多平台兼容)

CloudCompare 是一个开源的3D点云(Point Cloud)和网格(Mesh)处理软件,广泛应用于地理信息系统(GIS)、计算机图形学、测绘、考古、建筑和工程等领域。自2004年由Daniel Girardeau-Montaut开发以来…

记录深度学习GPU配置,下载CUDA与cuDnn,安装tensorflow

目标下载: cuda 11.0.1_451.22 win10.exe cudnn-11.0-windows-x64-v8.0.2.39.zip Anaconda的安装请看别的博主的,这里不再赘述 看看自己电脑的cuda 方法一:打开英伟达面板查看 方法二:使用命令行 随便找个文件夹,在顶部路径输入"cmd" 输入下面命令 nvidia-smi 我…

使用QtCreator C++编写串口调试助手

100编程书屋_孔夫子旧书网 1.首先看一下我设计的界面(我这里比较简单,大家可根据自己的需求进行设计) (界面设计的过程中,每一个控件的名称最好进行修改,便于后续控件太多不好区分,给控件命名的…

Linux目录的基本结构(RHEL8系统基本使用之文件操作)

1.Linux的目录树结构 2.各目录的功能介绍 3.理解文件路径表示方法 Who?——>当前登录的用户 Where?——>路径 我要在哪儿创建文件? 我要删除什么地方的什么文件? 我所要查看的文件在哪里? What?——>操作命令 Ho…

黑马程序员——Spring框架——day03

目录: AOP AOP简介 问题导入AOP简介和作用【理解】AOP的应用场景为什么要学AOPAOP入门案例【重点】 问题导入AOP入门案例思路分析AOP入门案例实现AOP中的核心概念AOP工作流程【理解】 问题导入AOP工作流程AOP核心概念在测试类中验证代理对象AOP切入点表达式 问题导…

双指针练习:快乐数

1.题目链接:202.快乐数 2.题目描述: 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无…