Hive-定时清理无用的临时表

背景:

        有一个临时库,大家平时开发过程中比较常用,这个库的表的生命周期没有得到很好的管理,日积月累导致无用表增多,所以跟运维提了个方案,定期清理。提出了一个比较简单的方案。

解决方案:

show u the code

表规范如下

表名称:temp_xxxx(邮箱前缀)_xxxxx(自由发挥,不建议太长)_expyyyyMMdd(过期日期20241126)

清理规则如下

  1. 不符合上述规范的表直接清理或者rename
  2. 超过表的过期时间的清理或者rename

实现方案:

方案一:

这个版本的属于最常规的思路,如果清理的无用表较多的时候可能性能会稍微低些。

#!/bin/bash

# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"

# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)

# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")

# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"

# 遍历所有表
for TABLE in $TABLES; do
    if [[ $TABLE =~ $VALID_PATTERN ]]; then
        # 提取过期日期
        EXP_DATE=${BASH_REMATCH[1]}
        
        # 检查是否过期
        if [[ $CURRENT_DATE -gt $EXP_DATE ]]; then
            echo "Deleting expired table: ${TABLE}"
            $BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"
        fi
    else
        # 删除不符合规范的表
        echo "Deleting invalid table: ${TABLE}"
        $BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"
    fi
done

echo " cleanup completed."

ps:上面的方案我是用的是beeline是因为集群直接使用hive -e 出来的表名很不规整。条件允许的可以直接用hive -e 

对性能有要求的同学可能发现了,每次都要起一次beeline 客户端。效率堪忧。所以给出一个优化的方案。

方案二:

#!/bin/bash

# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"

# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)

# 准备SQL脚本
SQL_SCRIPT="/tmp/cleanup_tables.sql"

# 初始化SQL脚本
echo "USE ${HIVE_DB};" > "${SQL_SCRIPT}"

# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")

# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"

# 遍历所有表
for TABLE in $TABLES; do
    if [[ $TABLE =~ $VALID_PATTERN ]]; then
        # 提取过期日期
        EXP_DATE=${BASH_REMATCH[1]}
        
        # 检查是否过期
        if [[ $CURRENT_DATE -gt $EXP_DATE ]]; then
            echo "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"
            echo "Marked for deletion: ${TABLE}"
        fi
    else
        # 删除不符合规范的表
        echo "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"
        echo "Marked for deletion (invalid name): ${TABLE}"
    fi
done

# 执行SQL脚本
$BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -f "${SQL_SCRIPT}"

# 清理临时SQL文件
rm -f "${SQL_SCRIPT}"

echo "cleanup completed."
  1. 方案二把需要清理的表放到了一个文件里,然后直接一次性执行一个清理语句。减少了交互,提升了效率

总结:

方案比较简单粗暴,如果想要友好一些的,可以做rename处理,比如把表名加上trash,或者把每日待删除的表先发一个邮件给到开发的小伙伴,确认无误之后再最物理删除。具体情况根据团队的实际情况来定即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923857.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

英语知识网站开发:Spring Boot框架应用

3系统分析 3.1可行性分析 通过对本英语知识应用网站实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本英语知识应用网站采用SSM框架&#xff0c;JAVA作为开发语…

非协议默认端口的:NAT alg需配置port-mapping

参考解释文章&#xff1a; https://zhiliao.h3c.com/Theme/details/167990 https://zhiliao.h3c.com/Theme/details/44359 nat的alg和port-mapping - 知了社区 NAT alg的功能 NAT ALG&#xff08;Application Level Gateway&#xff0c;应用层网关&#xff09;主要完成对应用…

三六零[601360]行情数据接口

1、三六零&#xff1a;实时行情 Restful API # 测试接口&#xff1a;可以复制到浏览器打开 https://tsanghi.com/api/fin/stock/XSHG/realtime?tokendemo&ticker601360获取股票实时行情&#xff08;开、高、低、收、量&#xff09;。 请求方式&#xff1a;GET。 Python示例…

Xilinx Blockset Gateway In 和Gateway out模块使用及参数配置

目录 一、Gateway InSimulink数据到System Generator数据的转换Gateway BlocksBlock Parameters&#xff08;模块参数&#xff09;Basic选项卡参数Implementation选项卡参数 二、Gateway OutGateway BlocksBlock Parameters&#xff08;模块参数&#xff09;Basic选项卡参数Imp…

三格电子—EtherNet IP转Modbus RTU网关

EtherNet/IP转Modbus RTU网关 SG-EIP-MOD-210 产品用途 SG-EIP-MOD-210网关可以实现将Modbus接口设备连接到 EtherNet/IP网络中。用户不需要了解具体的Modbus和 EtherNet/IP协议即可实现将Modbus设备挂载到 EtherNet/IP接口的PLC上&#xff0c;并和Modbus设备进行数据交互。拓…

使用 Jina Embeddings v2 在 Elasticsearch 中进行后期分块

作者&#xff1a;来自 Elastic Gustavo Llermaly 在 Elasticsearch 中使用 Jina Embeddings v2 模型并探索长上下文嵌入模型的优缺点。 在本文中&#xff0c;我们将配置和使用 jina-embeddings-v2&#xff0c;这是第一个开源 8K 上下文长度嵌入模型&#xff0c;首先使用 semant…

【西瓜书】剪枝与样本值处理——预剪枝、后剪枝、连续值、缺失值

目录 预剪枝 后剪枝 处理连续值 处理缺失值 剪枝&#xff08;pruning&#xff09;是决策树学习算法对付“过拟合”的主要手段。 在决策树学习过程中&#xff0c;有时会造成决策树分枝过多&#xff0c;就可能造成过拟合&#xff0c;可通过主动去掉一些分支来降低过离合的风…

【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?

【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化&#xff1f; 重要性&#xff1a;★★ NLP Github 项目&#xff1a; NLP 项目实践&#xff1a;fasterai/nlp-project-practice 介绍&#xff1a;该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用&am…

H3C OSPF 多区域实验

目录 前言 实验拓扑 实验需求 实验解析 路由器配置 测试 前言 此篇文章为 OSPF多区域试验&#xff0c;建议先食用OSPF单区域实验&#xff0c;理解实验原理 学习基本配置&#xff0c;再来使用此篇&#xff0c;效果更佳&#xff01;&#xff08;当然如果你已经了解原理与基…

基于Spring Boot的装饰工程管理系统论文

摘 要 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统装饰工程项目信息管理难度大&#xff0c;容错率低&#x…

DNS高速缓存污染

DNS高速缓存污染&#xff0c;也称为DNS缓存投毒&#xff0c;是一种网络攻击手段&#xff0c;攻击者通过篡改DNS服务器中的缓存记录&#xff0c;使得用户访问的域名被错误地解析到攻击者控制的IP地址&#xff0c;从而将用户重定向到恶意网站或阻止用户访问目标网站。这种攻击破坏…

一文详解“分治—快排“在算法中的应用

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; 优选算法专题 分治算法是利用分而治之的思想来实现的。典型代表&#xff0c;递归&#xff0c;将一个大问题转换为多个与其类似的小问题&#…

【三维生成】Edify 3D:可扩展的高质量的3D资产生成(英伟达)

标题&#xff1a;Edify 3D: Scalable High-Quality 3D Asset Generation 项目&#xff1a;https://research.nvidia.com/labs/dir/edify-3d demo&#xff1a;https://build.nvidia.com/Shutterstock/edify-3d 文章目录 摘要一、前言二、多视图扩散模型2.1.消融研究 三、重建模型…

基于机器视觉的表面缺陷检测

基于机器视觉的表面缺陷检测存在的问题与难点 - AVT相机|AVT红外相机|万兆网相机EVT|VIEWORKS线扫相|映美精相机|Specim多光谱相机|Adimec相机|Basler相机|富士能FUJINON镜头|理光RICOH镜头|OPTO远心镜头|SPO远心镜头|Navtar镜头|VST镜头|CCS光源|3D视觉引导机床上下料系统 (完…

SpringBoot整合MQTT利用EMQX完成消息的发布与接收+Python模拟硬件测试通信

教程说明 本教程主要内容为使用SpringBoot整合MQTT利用EMQX代理服务完成MQTT的消息发送与接收&#xff0c;然后用Python模拟硬件与SpringBoot应用进行了MQTT消息的通信&#xff0c;教程详细&#xff0c;并在最后讲解了开发中的注意事项&#xff0c;本教程适用于物联网领域、Ja…

IntelliJ IDEA 中,自动删除无用导包

在 IntelliJ IDEA 中&#xff0c;自动删除无用导包是一个提升代码整洁性和开发效率的重要功能。以下是实现这一功能的详细步骤&#xff1a; 一、通过快捷键手动删除无用导包 打开Java文件&#xff1a;在IDEA中打开你需要操作的Java文件。 使用快捷键&#xff1a; 在Windows系…

表格数据处理中大语言模型的微调优化策略研究

论文地址 Research on Fine-Tuning Optimization Strategies for Large Language Models in Tabular Data Processing 论文主要内容 这篇论文的主要内容是研究大型语言模型&#xff08;LLMs&#xff09;在处理表格数据时的微调优化策略。具体来说&#xff0c;论文探讨了以下…

如何编写一个 Vue 3 应用:模板插值示例

Vue.js 是一个渐进式的 JavaScript 框架&#xff0c;用于构建用户界面。在本篇博客中&#xff0c;我们将通过一个简单的示例来学习如何使用 Vue 3 创建一个基本的应用。这个示例将展示如何使用 Vue 的模板插值和事件处理来构建一个简单的点击计数器。 步骤 1: 准备工作 首先&…

基于混合ABC和A*算法复现

基于混合ABC和A*算法复现 一、背景介绍二、算法原理&#xff08;一&#xff09;A*算法原理&#xff08;二&#xff09;人工蜂群算法原理&#xff08;三&#xff09;混合ABC和A*算法策略 三、代码实现&#xff08;一&#xff09;数据准备&#xff08;二&#xff09;关键函数实现…

2024 APMCM亚太数学建模C题 - 宠物行业及相关产业的发展分析和策略(详细解题思路)

在当下&#xff0c; 日益发展的时代&#xff0c;宠物的数量应该均为稳步上升&#xff0c;在美国出现了下降的趋势&#xff0c; 中国 2019-2020 年也下降&#xff0c;这部分变化可能与疫情相关。需要对该部分进行必要的解释说明。 问题 1: 基于附件 1 中的数据及您的团队收集的额…