Linux ----------------------- 文本处理工具

(一)绪论

        awk、grep、sed和cut 是Linux 操作文本的四大利器,合称文本四大金刚,也是必须掌握的Linux 命令之一。这四个工具的功能各有侧重:

awk:功能最强大,用于处理和格式化文本,可以进行复杂的文本处理和数据提取,通常用于处理结构化数据,例如 CSV 文件。

grep:主要用于在文本中查找和匹配特定字符串或模式,是一个文本搜索工具。

sed:用于编辑匹配到的文本,可以进行替换、删除、插入等操作,是一个文本编辑工具。

cut:用于从文本中提取指定的字段或列,通常用于文本列的分割。

        接下来我们详细分析这四个命令。

(二)awk

       awk是一种强大的文本分析工具,主要用于在linux/unix 下对文本和数据进行处理。
对数据进行分析、统计并生成报表,比如网站的访问量,访问的IP 量等等。
        awk是一种编程语言,awk可以定义变量、运算符,使用流程控制语句进行深度加工
与分析。awk其名称得自于它的创始人.Alfred Aho 、Peter Weinberger 和 Brian Kernighan
姓氏的首个字母。
        awk的处理文本和数据的方式把文件逐行读入,以空格为默认分隔符将每行切片。
切片的部分再进行各种分析处理。。

语法

awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)

即 awk 选项参数  ‘命令部分' 文件名,注意:引用shell变量需要双引号引起。

选项参数说明:

  • --F  : 指定文件拆分分隔符,如果不写默认是空格
  • -v    : 赋值一个用户定义变量,将外部变量传递给awk
  • -f     :赋值一个用户定义变量,将外部变量传递给awk

AWK内置变量

变量名含义
$n指整条变量,当前记录的第n个字段。比如n为1 表示第一个字段
$NF表示最后一列的信息,跟变量NF是有区别的,变量NF统计的是每行 列的总数
$0这个变量包含执行过程中当前行的文本内容
ARGC命令行参数的个数
ARGIND命令行中当前文件的位置
ARGV包含命令行参数的数组
CONVFMT

数字转换格式(默认值为%.6g)

ENVIRON环境变量关联数组
ERRNO最后一个系统错误的描述
FIELDWIDTHS字段宽度列表(用空格键分割)
FILENAME当前输入文件的名
NR表示记录数,在执行过程中对应当前的行号
FNR同NR;但相对于当前文件
FS字段分隔符(默认是任何空格)
IGNORECASE如果真,进行忽略大小写的匹配
NF表示字段数,在执行过程中对应当前的字段数。print $NF 打印一行中最后一个字段
OFMT数字的输出格式(默认值为%.6g)
OFS输出字段分隔符(默认是一个空格)
ORS输出记录分隔符(默认是一个换行符)
RS记录分隔符(默认是一个换行符)
RSTART由 match函数所匹配的字符串的第一个位置
SUBSEP数字下标分割符(默认是34)

实例:

格式化输出 'print'和'printf’

print函数  类似echo,它是换行输出

printf函数 类似echo-n,它不换行输出,可以使用%s,%d进行占位。其中%s表示字符类型,%d数值类型。-表示左对齐,默认右对齐。

BEGIN……END使用

BEGIN:表示在程序开始前执行。

END:表示所有文件处理完后执行。

用法:'BEGIN‘{开始处理前};{处理中};END{处理结束后}’

定义变量 -v

流程控制语句

条件语句——IF 语句

IF 条件语句语法格式如下:

if (condition)
    action

也可以使用花括号来执行一组操作:

if (condition)
{
    action-1
    action-1
    .
    .
    action-n
}

 

条件语句——IF - ELSE 语句

IF - ELSE 条件语句语法格式如下:

if (condition)
    action-1
else
    action-2

在条件语句 condition 为 true 时执行 action-1,否则执行 action-2。

 

条件语句——IF - ELSE - IF

IF - ELSE 条件语句语法格式如下:

if (condition)
    action-1
else if (condition1)
    action-2
……

else if (conditionn) action-n

else  action-m

 

循环——For

For 循环的语法如下:

for (initialisation; condition; increment/decrement)
    action

        for 语句首先执行初始化动作( initialisation ),然后再检查条件( condition )。如果条件为真,则执行动作( action ),然后执行递增( increment )或者递减( decrement )操作。只要条件为 true 循环就会一直执行。每次循环结束都会进条件检查,若条件为 false 则结束循环。

下面的例子使用 For 循环输出数字 1 至 5:

$ awk 'BEGIN { for (i = 1; i <= 5; ++i) print i }'

 

循环——While

While 循环的语法如下:

while (condition)
    action

        While 循环首先检查条件 condition 是否为 true ,若条件为 true 则执行动作 action。此过程一直重复直到条件 condition 为 flase 才停止。

下面是使用 While 循环输出数字 1 到 5 的例子:

$ awk 'BEGIN {i = 1; while (i < 6) { print i; ++i } }'

Break

break 用以结束循环:

在下面的示例子中,当计算的和大于 50 的时候使用 break 结束循环:

 

 

Continue

Continue 语句用于在循环体内部结束本次循环,从而直接进入下一次循环迭代。

下面的例子输出 1 到16 之间的偶数:

 

 

Exit

Exit 用于结束脚本程序的执行。

该函数接受一个整数作为参数表示 AWK 进程结束状态。 如果没有提供该参数,其默认状态为 0。

下面例子中当和大于 50 时结束 AWK 程序。

awk 'BEGIN {
   sum = 0; for (i = 0; i < 20; ++i) {
      sum += i; if (sum > 50) exit(10); else print "Sum =", sum 
   } 
}'

让我们检查一下脚本执行后的返回状态:

$ echo $?

执行上面的命令可以得到如下的结果:

 

(三)grep  

        grep是一种强大的文本搜索工具,用于关键字进行过滤,并把匹配到的行进行打印,特别的是他在一个或多个文件中搜索满足模式的文本行。

语法形式:

grep   [选项]  '关键词' 文件名

常见的grep的选项参数:
选项作用
-c只输出匹配到的行数
-i不区分大小写(只适用于单字符)
-v显示不包匹配文本的所有行
-w按单词搜索
-o打印匹配关键字
-A显示匹配行即后面多少行
-B显示匹配行即前面多少行
-C显示匹配行即前后多少行
-e使用正则匹配
-E使用扩展正则匹配
-h查询多文件时不显示文件名
-n显示匹配行及行号
-s不显示不存在或无匹配文本的错误信息
^key以关键字开头
^$匹配空行

 (四)cut

         cut:剪切,切割,是一个强大文本处理工具,它是将文本按列进行划分的文本处理。cut命令逐行读入文本,按列划分字段并进行提取、输出等操作。

语法形式:

cut [选项] 文件名

常见的选项参数:

参数作用
-f  提取范围列号,获取第几列
-c 以字符为例以字符为单位进行分割
-b 提取范围以字节为单位进行分割,这些字节位置将忽略多字节字符边界,除非其指定-n标志
-d 自定义分隔符自定义分隔符,默认为制表符
-n与“-b"选项连用,不分隔多字节字符

提取范围说明:

提取范围说明
n-提取指定第n列或字符或字节后面所有数据
n-m提取指定第n列或字符或字节到第m列字符或字节中间所有数据
-m提取指定第m列或字符或字节前面所有数据
n1,n2……提取枚举列的所有数据

示范:

(五)sed

        sed是Linux下一款功能强大的非交互流式文本编辑器,可以对文本文件进行增、删、改、查等操作,支持按行、按字段,技正则匹配文本内容,灵活方便,特别适合于大文件的
编辑。
        sed工作原理:sed会读取每一行数据到模式空间中,判断当前行是否符合模式匹配要求,符合要求就会执行sed程序命令,否则不会执行sed程序命令,如果不写匹配模式,那么每一行都会执行sed程序命令。

sed的使用语法:

sed [选项参数] [模式匹配|sed程序命令]         [文件名]

sed的常用选项:

选项作用
-r使用扩展正则表达式
-e告诉sed将下一个参数解释为一个sd指令,只有当命令行上给出多个sed指令时才需要使用-e
-f后跟保存sed指令的文件
-i直接对内容进行修改,不加-i时默认只是预览,不会对文件做实际修改
-n取消默认输出,sed默认会输出所有文本内容,使用-n 参数后只显示处理过的行

 

(六)sort

        sort命令以行为单位对文本进行排序。sort将文件的每一行作为一个单位,互相比较,比较原则:从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。

 

语法

sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件][-k field1[,field2]]

参数说明

  • -b 忽略每行前面开始出的空格字符。
  • -c 检查文件是否已经按照顺序排序。
  • -d 排序时,处理英文字母、数字及空格字符外,忽略其他的字符。
  • -f 排序时,将小写字母视为大写字母。
  • -i 排序时,除了040至176之间的ASCII字符外,忽略其他的字符。
  • -m 将几个排序好的文件进行合并。
  • -M 将前面3个字母依照月份的缩写进行排序。
  • -n 依照数值的大小排序。
  • -u 意味着是唯一的(unique),输出的结果是去完重了的。
  • -o<输出文件> 将排序后的结果存入指定的文件。
  • -r 以相反的顺序来排序。
  • -t<分隔字符> 指定排序时所用的栏位分隔字符。
  • +<起始栏位>-<结束栏位> 以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。
  • --help 显示帮助。
  • --version 显示版本信息。
  • [-k field1[,field2]] 按指定的列进行排序。

(六)tee命令

        tee命令作用把输出的一个副本输送到标准输出,另一个副本拷贝到相应的文件中。如果希望在看到输出的同时,也将其存入一个文件,那么这个命令合适不过。

语法形式:

tee  [参数] files 

参数

  • -a或--append  附加到既有文件的后面,而非覆盖它.
  • -i或--ignore-interrupts  忽略中断信号。
  • --help  在线帮助。
  • --version  显示版本信息

当执行某些命令或脚本时,如果希望把输出保存下来,tee命令非常方便。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/120246.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IntelliJ IDEA 如何修改默认Maven仓库地址

在使用idea过程中&#xff0c;每次新建项目或者打开项目时&#xff0c;maven仓库地址都会变为默认地址。如何修改默认地址&#xff0c;让其保持不变&#xff0c;如下这种方式可以简单快捷的设置。 1.打开idea&#xff0c;取消项目自动加载 2.点击 Customize,然后再点击 All se…

vSLAM中IMU预积分的作用--以惯性导航的角度分析

作为一个学过一点惯导的工程师&#xff0c;在初次接触视觉slam方向时&#xff0c;最感兴趣的就是IMU预积分了。但为什么要用这个预积分&#xff0c;在看了很多材料和书后&#xff0c;还是感觉模模糊糊&#xff0c;云里雾里。 在接触了vSLAM的更多内容后&#xff0c;站在历史研究…

JVM虚拟机:如何查看自己的JVM默认的垃圾回收器

只需要在程序运行的时候指定下面的参数就可以看到当前自己的JVM默认的垃圾回收器是什么&#xff1f;如下所示&#xff1a; 如上所示&#xff0c;默认使用的是G1回收器&#xff0c;这是我的电脑&#xff0c;因为我的电脑安装jdk的版本是1.9 如果你的jdk的版本是1.8&#xff0c;那…

11 抽象向量空间

抽象向量空间 向量是什么函数什么是线性推论向量空间 这是关于3Blue1Brown "线性代数的本质"的学习笔记。 向量是什么 可以是一个箭头&#xff0c;可以是一组实数&#xff0c;即一个坐标对。 箭头在高维&#xff08;4维&#xff0c;甚至更高&#xff09;空间&…

攻击者滥用日历服务作为 C2 基础设施

谷歌警告多个威胁参与者正在利用其日历服务作为命令和控制&#xff08;C2&#xff09;基础设施。 谷歌警告 称&#xff0c;多个威胁参与者共享一个名为“Google Calendar RAT”的公共概念验证&#xff08;PoC&#xff09;漏洞&#xff0c;该漏洞依赖日历服务来托管命令和控制&…

Redis-----SSM整合redis及redis的注解式开发以及redis的击穿,穿透,雪崩三种解决方案

目录 SSM项目整合Redis 导入pom依赖 配置文件spring-redis.xml redis.properties 配置redis的key生成策略 redis的注解式开发及应用场景 什么是redis的注解式 redis注解式的场景应用 Cacheable 自定义策略 Cacheable可以指定三个属性&#xff0c;value、key和condition…

每日汇评:黄金正在期待鲍威尔的讲话以获取新的方向动力

周三早盘&#xff0c;金价盘整了连续两天的跌势&#xff0c;等待鲍威尔发言&#xff1b; 美元在不同的美联储评论和风险偏好减弱的情况下寻求方向&#xff1b; 黄金价格确认了上升三角形的突破&#xff0c;但美债收益率较低可能会限制跌幅&#xff1b; 周二早些时候&#xf…

大数据中经常使用的指令:

1、Hadoop&#xff1a; 1、关闭Hadoop集群的安全模式&#xff1a; hdfs dfsadmin -safemode leave#查看集群的模式的状态&#xff1a; hdfs dfsadmin -safemode get 2、启动、关闭Hadoop集群&#xff1a; start-all.sh stop-all.sh 3、停止yarn中进程的命令&#xff1a; yar…

【ARM Trace32(劳特巴赫) 使用介绍 2 - Veloce 环境中使用trace32 连接 Cortex-M33】

文章目录 T32MARM 介绍Trace32 .t32 和 .cmm 差异veloce 下启动TRACE321.1.3 TAP 状态机操作命令1.1.3.1 IDCODE&#xff08;Identification Code&#xff09;寄存器 介绍 T32MARM 介绍 T32MARM 是 Lauterbach 的 Trace32 软件包的一部分&#xff0c;专门用于 ARM 基础架构的微…

第七章 块为结构建模 P2|系统建模语言SysML实用指南学习

仅供个人学习记录 流建模 对系统不同组成之间的流做出定义可提供它们之间交互作用的抽象视图 项是定义为流动事物的通用术语。流属性定义了该块可以流入或流出的项 为流动的项建模 项item用于描述一类流动的实体&#xff0c;可以是物质流&#xff08;如物质和能量&#xff…

SwiftUI Swift 多个 sheet

今天做一个多个 sheet 的效果&#xff0c;点击下面三个按钮打开不同的 sheet 。 Show me the code import SwiftUIenum CurrentActiveSheet: Identifiable {case add, edit, deletevar id: Int {hashValue} }struct MoreSheet: View {State var currentActiveSheet: CurrentAc…

DDoS类型攻击对企业造成的危害

超级科技实验室的一项研究发现&#xff0c;每十家企业中&#xff0c;有四家(39%)企业没有做好准备应对DDoS攻击&#xff0c;保护自身安全。且不了解应对这类攻击最有效的保护手段是什么。 由于缺乏相关安全知识和保护&#xff0c;使得企业面临巨大的风险。 当黑客发动DDoS攻击…

从零开始搭建微服务(二)

忘记了软件还没有装全,今天先把所有的软件装上,nacos已经装过了我们就不在装了,剩余的软件全部都是通过docker安装,我在centos7里面 1. 安装docker 安装dockeryum -y install docker开机自启 systemctl enable docker启动dockre systemctl start docker查看docker版本 doc…

【Unity】光照烘培-基础参数-基础设置

光照烘培 一级目录二级目录 问题目录烘焙光照在手机不起作用 一级目录 二级目录 Unity 2020.3.25 打开灯光面板 Wingdow -》 Rendering -> Lighting Lighting Settings 灯光设置文件 Realtime Lighting Realtime Global lllumin Realtime Environme Mixed Lighting Ba…

响应式编程-Project Reactor Mono 介绍

响应式编程-Project Reactor Mono 介绍 本文以Mono的角度来介绍Reactor编程&#xff0c;Flux的使用同理。 初体验 Web应用 controller 方法在Spring webmvc 和 Spring webFlux下Controller方法实现示例如下&#xff1a; Spring webmvc: GetMapping("/test1") …

麒麟信安获批牵头成立国家关键领域信创行业产教融合共同体

日前&#xff0c;由麒麟信安、长沙理工大学、长沙职业技术学院联合牵头成立的国家关键领域信创行业产教融合共同体&#xff08;以下简称&#xff1a;共同体&#xff09;已获湖南省教育厅批准&#xff0c;并推荐至教育部。 目前共同体已吸引10余家联盟单位及全国20余家企业、高…

C++(Qt)软件调试---下载和安装最新版Windbg(16)

C(Qt)软件调试—下载和安装最新版Windbg&#xff08;16&#xff09; 文章目录 C(Qt)软件调试---下载和安装最新版Windbg&#xff08;16&#xff09;1、前言2、在线安装1.1 安装方法一1.2 安装方法二 3、离线安装 1、前言 Windbg是微软开发的一款强大的调试工具&#xff0c;它主…

公开IP属地信息如何保护用户的隐私?

公开IP属地信息通常涉及与用户或组织的隐私有关&#xff0c;因此在公开此类信息时需要非常小心&#xff0c;以避免侵犯他人的隐私权。以下是触碰底线的几种情况以及如何保护网络安全和用户隐私&#xff1a; 个人隐私保护&#xff1a; 公开IP属地信息可能泄露用户的物理位置&…

【Excel】如何画不同时序交叉的百分比堆积柱状图

这里写自定义目录标题 1 将两表交叉合并为一个表1.1 步骤一&#xff1a;在两独立表的工作天数和工资列下面按1-n顺次标号。1.2 步骤二&#xff1a;选中两表需要合并的部分&#xff0c;调出自定义排序1.3 步骤三&#xff1a;选项 ——> 按行排序 &#xff08;选完后点确定&am…

大数据之LibrA数据库系统告警处理(ALM-12030 无合法license存在)

告警解释 系统在安装集群后和每天零点检查当前系统中是否存在合法的license文件&#xff0c;如果没有则产生该告警。 导入合法license文件时&#xff0c;告警恢复。 说明&#xff1a; 如果当前集群使用节点数小于等于10节点&#xff08;不包含管理节点&#xff09;&#xf…