shell脚本总结1

目录

  • 前言
  • 实战
  • 分解步骤:
    • 命令调用:
    • Hive及Spark配置:
    • 队列指定:
    • SQL 执行:
    • SQL 查询:
    • 输出处理:
    • 目的和使用场景:

前言

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

实战

#!/bin/bash
datainfo=`
spark3-sql \
--driver-memory "10G" \
--conf spark.hadoop.lzo.text.input.format.ignore.nonlzo="false" \
--conf spark.locality.wait="0s" \
--conf spark.kryoserializer.buffer="512k" \
--executor-cores "4" \
--hiveconf hive.cli.print.header="false" \
--conf spark.grouping.sets.reference.hive="true" \
--conf spark.dynamicAllocation.maxExecutors="200" \
--executor-memory "20G" \
--conf spark.executor.memoryOverhead="6G" \
--conf spark.dynamicAllocation.enabled="true" \
--conf spark.locality.wait.rack="0s" \
--queue "root.mi.sh" \
--e"
select 
count(1) as mark_num
,min(begin_date) as begin_date
,max(end_date) as end_date
from  default.testtable
"| tr "\t" ","
`

分解步骤:

命令调用:

命令以 spark3-sql 开始,表示使用 Spark SQL 命令行接口(CLI)。
这个 CLI 用于与 Spark 进行通信,以执行类似于数据库 CLI 的 SQL 查询。

Hive及Spark配置:

比如:
–hiveconf hive.cli.print.header=“false”:设置 Hive 配置参数以禁止在输出中打印表头,这对于处理数据的脚本非常有用。
–conf spark.dynamicAllocation.maxExecutors=“200”:配置 Spark 以使用最多 200 个 executors,executors 是 Spark 作业中的计算单位。
–conf spark.dynamicAllocation.enabled=“true”:启用资源动态分配,允许 Spark 根据工作负载自动调整使用的 executors 数量。

队列指定:

–queue “root.mi.sh”:此选项指定了 YARN 队列,任务将提交到该队列。它用于在 Hadoop 集群上组织资源分配和作业调度。

SQL 执行:

-e 用于指定要执行的 SQL 命令,SQL 命令用引号括起来。

SQL 查询:

查询选择三个字段:
count(1) as mark_num:计算满足查询条件的数据集中的行数。
,min(begin_date) as begin_date:找到数据集中最早的 begin_date。
,max(end_date) as end_date:类似地找到最新的 end_date。
From 子句:查询表 default.testtable。

输出处理:

tr “\t” “,”:将制表符分隔的输出转换为逗号分隔的输出,这对于直接从命令输出生成类似 CSV 的结果非常有用。

目的和使用场景:

此类脚本常用于数据工程和分析工作流中,例如:
使用 Spark 执行大规模数据查询和转换。
在 Unix/Linux 环境中利用自动化脚本处理大数据平台上的数据。
需要与 Hive 表或类似的基于 SQL 的数据存储解决方案进行交互。

查询结果被存储在 dateinfo 变量中,通过将命令的输出捕获到一个变量中,使得可以灵活地将复杂的数据查询和处理集成到脚本工作流中。
可以根据需要对这个变量进行处理,比如将其写入文件、传递给其他命令或者用于判断逻辑中的条件检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948044.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

普及组集训数据结构--并查集

P1551 亲戚 - 洛谷 | 计算机科学教育新生态 并查集就是把所有相关联的量串成一串珠子,抽象来说就是: 把此类相关联的量当作节点,两个节点之间连接一条无向边,所形成的图 例题算法流程: 在此定义“族长”就是一个树的…

windows编译llama.cpp GPU版本

Build 指南 https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md 一、Prerequire 具体步骤(以及遇到的坑): 如果你要使用CUDA,请确保已安装。 1.安装 最新的 cmake, git, anaconda, pip 配置pyt…

Android 性能优化:内存优化(实践篇)

1. 前言 前一篇文章Android性能优化:内存优化 (思路篇) 大概梳理了Android 内存原理和优化的必要性及应该如何优化,输出了一套短期和长期内存优化治理的SOP方案。 那么这一篇文章就总结下我最近在做内存优化如何实践的&#xff0…

「Mac畅玩鸿蒙与硬件53」UI互动应用篇30 - 打卡提醒小应用

本篇教程将实现一个打卡提醒小应用,通过用户输入时间进行提醒设置,并展示实时提醒状态,实现提醒设置和取消等功能。 关键词 打卡提醒状态管理定时任务输入校验UI交互 一、功能说明 打卡提醒小应用包含以下功能: 提醒时间输入与…

Nginx知识详解(理论+实战更易懂)

目录 一、Nginx架构和安装 1.1 Nginx 概述 1.1.1 nginx介绍 1.1.2?Nginx 功能介绍 1.1.3?基础特性 1.1.4?Web 服务相关的功能 1.2?Nginx 架构和进程 1.2.1?Nginx 进程结构 1.2.2?Nginx 进程间通信 1.2.3?Nginx 启动和 HTTP 连接建立 1.2.4?HTTP 处理过程 1…

Postgresql 命令还原数据库

因为PgAdmin打不开,但是数据库已经安装成功了,这里借助Pg命令来还原数据库 C:\Program Files\PostgreSQL\15\bin\psql.exe #链接数据库 psql -U postgres -p 5432#创建数据库 CREATE DATABASE "数据库名称"WITHOWNER postgresENCODING UTF8…

Vue 解决浏览器刷新路由参数丢失问题 全局统一配置无需修改组件

在路由跳转的时候,我们经常会传一些参数过去,然后通过传过来的参数调用接口获取相关数据,但是刷新浏览器的时候路由参数会丢失。此时页面报错误了,如何通过全局配置的方式,不需要修改任何组件 实现刷新浏览器保存参数? 实现方式如下: 首先在router/index.js里添加参数管…

【AIGC】电话录音转文字实践:基于Google Cloud Speech-to-Text-v1的技术方案Python

文章目录 引言技术原理技术方案设计系统架构关键技术要点 代码实现1. 环境准备2. 核心代码实现3. 音频预处理工具响应格式 性能优化实践经验应用场景未来展望总结 引言 在当今数字化时代,将语音内容转换为文字已经成为一个非常重要的技术需求。无论是客服通话记录、…

RabbitMQ-基本使用

RabbitMQ: One broker to queue them all | RabbitMQ 官方 安装到Docker中 docker run \-e RABBITMQ_DEFAULT_USERrabbit \-e RABBITMQ_DEFAULT_PASSrabbit \-v mq-plugins:/plugins \--name mq \--hostname mq \-p 15672:15672 \-p 5672:5672 \--network mynet\-d \rabbitmq:3…

Android Camera压力测试工具

背景描述: 随着系统的复杂化和业务的积累,日常的功能性测试已不足以满足我们对Android Camera相机系统的测试需求。为了确保Android Camera系统在高负载和多任务情况下的稳定性和性能优化,需要对Android Camera应用进行全面的压测。 对于压…

vscode中调用deepseek实现AI辅助编程

来自 Python大数据分析 费弗里 1 简介 大家好我是费老师,最近国产大模型Deepseek v3新版本凭借其优秀的模型推理能力,讨论度非常之高🔥,且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线,性价比很高…

基于 LMS 算法的离散傅里叶分析器

基于 LMS(Least Mean Squares,最小均方)算法的离散傅里叶分析器是一种结合自适应滤波和频域分析的工具,用于动态估计信号的频谱成分。它将 LMS 自适应算法与离散傅里叶变换(DFT)的频率分解能力结合&#xf…

2022浙江大学信号与系统笔记

原视频地址:2022浙江大学信号与系统(含配套课件和代码) - 胡浩基老师-哔哩哔哩 ⭐⭐⭐ 我的笔记:飞书链接 - 信号与系统 基于视频,记得笔记,加了点自己的补充(有的是问 ChatGPT 的)…

K8s高可用集群之Kubernetes集群管理平台、命令补全工具、资源监控工具部署、常用命令

K8s高可用集群之Kubernetes管理平台、补全命令工具、资源监控工具部署 1.Kuboard可视化管理平台2.kubectl命令tab补全工具3.MetricsServer资源监控工具4.Kubernetes常用命令 1.Kuboard可视化管理平台 可以选择安装k8s官网的管理平台;我这里是安装的其他开源平台Kub…

Gitlab-runner 修改默认的builds_dir并使用custom_build_dir配置

gitlab-runner 修改默认的builds_dir并使用custom_build_dir配置 1. 说明2. 实操(以docker执行器为例)2.1 修改默认的builds_dir2.1.1 调整gitlab-runner的配置文件2.1.2 CI文件 2.2 启用custom_build_dir2.2.1 调整gitlab-runner的配置文件2.2.2 CI文件…

网络IP协议

IP(Internet Protocol,网际协议)是TCP/IP协议族中重要的协议,主要负责将数据包发送给目标主机。IP相当于OSI(图1)的第三层网络层。网络层的主要作用是失陷终端节点之间的通信。这种终端节点之间的通信也叫点…

SpringCloud源码-Ribbon

一、Spring定制化RestTemplate,预留出RestTemplate定制化扩展点 org.springframework.cloud.client.loadbalancer.LoadBalancerAutoConfiguration 二、Ribbon定义RestTemplate Ribbon扩展点功能 org.springframework.cloud.netflix.ribbon.RibbonAutoConfiguratio…

MySQL5.7.26-Linux-安装(2024.12)

文章目录 1.下载压缩包1.访问MySQL版本归档2.找到5.7.26并下载3.百度网盘 2.Linux安装1.卸载原来的MySQL8.0.26(如果没有则无需在意)1.查看所有mysql的包2.批量卸载3.删除残留文件**配置文件**(默认路径): 4.**验证卸载…

python修改ppt中的文字部分及插入图片

批量修改ppt中的某个模块,或者批量制作奖状等场景会用到; import os import pandas as pd from pptx import Presentation from pptx.util import Inchesfilepath/Users/kangyongqing/Documents/kangyq/202303/分析模版/批量制作/file1时段预警_副本.pp…

Ubuntu24.04.1 LTS+Win11双系统安装记录

Win11相关 1.用DiskGenius删除硬盘分区 2.关闭win11的BitLocker,否则禁用安全启动后开机时需要帐户密钥,很麻烦。 3.在设备管理器中找到独立显卡,右键禁用。等ubuntu装好显卡驱动后,再进入win启用。 Ubuntu相关 1.Ubuntu24.04在…