Linux文本处理三剑客:awk(常用匹配模式)

在Linux操作系统中,grep、sed、awk被称为文本操作“三剑客”,上三期中,我们将详细介绍grep、sed、awk的基本使用方法,希望能够帮助到有需要的朋友。

1、前言

awk作为一门编程语言还有很多内容,我们继续学习awk。

网上有很多教程,讲的都很棒的,但是也讲得很迷糊。

关注我,我也是在摸索中学习,尽量讲清晰一些,希望您在看的过程中,能够有所发现。

首先,上官方手册:Gawk - GNU Project - Free Software Foundation (FSF)

工作流程如下图:BEGIN块开始,循环执行BODY块,最后执行END块。

大家记住这张图,下面我们来讲常用的匹配模式。

主要有以下几种:

  • awk保留字
  • 关系运算符
  • 匹配操作符
  • 正则表达式

2、awk保留字

保留字描述
BEGIN在处理文件之前执行一次的特殊模式。常用于初始化操作,如设置变量、打印标题等。
END在处理文件之后执行一次的特殊模式。常用于收尾工作,如统计结果、输出总结信息等。
NR内置变量,表示当前记录的编号。记录是以换行符分隔的文本行。常用于控制循环或条件判断,如打印第一行或最后一行,或执行基于记录编号的操作。
NF内置变量,表示当前记录的字段数。字段是以空格或制表符分隔的文本列。常用于指定操作的字段数量,如打印指定字段,或执行基于字段数的条件判断。
FS内置变量,表示输入字段分隔符。默认为空格或制表符,可以通过赋值改变其值。常用于处理不同格式的文本文件,如逗号分隔的CSV文件,冒号分隔的passwd文件等。
OFS内置变量,表示输出字段分隔符。默认为与FS相同的值,可以通过赋值改变其值。常用于控制输出格式,如指定输出结果的分隔符。
$0 内置变量,表示当前记录的整体内容。常用于对整行进行操作,如替换、删除、打印等。
$1...$n一组内置变量,分别表示当前记录的各个字段。常用于对指定字段进行操作,如计算、比较、拼接等。

3、关系运算符

关系运算符是指用来比较两个值的大小或相等性的运算符,它们返回一个布尔值(真或假)。awk支持以下关系运算符:

关系运算符描述
==等于
!=不等于
<小于
<=小于等于
>大于
>=大于等于

关系运算符可以用来构造条件表达式,比如筛选出某个范围内的数据,判断某个值是否存在等。

4、匹配操作符

匹配操作符是指用来检查一个值是否匹配一个模式的运算符,它们返回一个布尔值(真或假)。awk支持以下匹配操作符:

- ~匹配
!~不匹配


模式可以是一个字符串或一个正则表达式。匹配操作符可以用来过滤出符合某种规则的数据,比如包含某个关键字,以某个字符开头或结尾等。

5、正则表达式 

元素描述
字符类用方括号括起来的一组字符,表示匹配其中任意一个字符。比如[abc]表示匹配a或b或c。
范围类用方括号括起来的两个字符之间加上连字符,表示匹配该范围内的任意一个字符。比如[a-z]表示匹配小写字母。
反向类在字符类或范围类前面加上^,表示匹配除了该类之外的任意一个字符。比如[^0-9]表示匹配非数字。
预定义类用反斜杠加上一个字母,表示匹配某种类型的字符。比如\d表示匹配数字,\w表示匹配字母或数字或下划线。
量词用花括号括起来的一个或两个数字,表示匹配前面的元素的重复次数。比如a{3}表示匹配三个a,a{2,4}表示匹配两个到四个a。
贪婪量词在量词后面加上?,表示匹配前面的元素的最小重复次数。比如a{2,4}?表示匹配两个a。
通配符用点号.表示匹配任意一个字符(除了换行符)。
边界符用反斜杠加上一个大写字母,表示匹配某种位置。比如\b表示匹配单词边界,\B表示匹配非单词边界。
分组用圆括号括起来的一部分正则表达式,表示将其作为一个整体进行匹配或引用。比如(ab)+表示匹配ab的一次或多次重复,\1表示引用第一个分组的内容。
选择用竖线|分隔的两个或多个正则表达式,表示匹配其中任意一个。比如a|b|c表示匹配a或b或c。

正则表达式可以用来描述各种复杂的文本模式,比如邮箱地址,手机号码,日期格式等。

示例代码:

# 示例代码一:使用awk打印包含特定关键字的行
awk '/关键字/' 文件名

# 示例代码二:使用awk打印第一列等于指定值的行
awk '$1 == "指定值"' 文件名

# 示例代码三:使用awk打印字段数大于等于3的行
awk 'NF >= 3' 文件名

# 示例代码四:使用awk打印以特定字符串开头的行
awk '$0 ~ /^特定字符串/' 文件名

# 示例代码五:使用awk打印指定字段的和
awk '{sum += $1} END {print sum}' 文件名

# 示例代码六:使用awk打印匹配正则表达式的行
awk '/正则表达式/' 文件名

# 示例代码七:使用awk自定义分隔符,并打印指定字段
awk -F ':' '{print $1}' 文件名

# 示例代码八:使用awk在匹配的行前后添加文字
awk '/匹配模式/ {print "前缀" $0 "后缀"}' 文件名

# 示例代码九:使用awk按照指定条件排序
awk '{print $2, $1}' 文件名 | sort

# 示例代码十:使用awk统计特定字段的出现次数
awk '{count[$1]++} END {for (word in count) print word, count[word]}' 文件名

 如果您觉得有些用处,欢迎在评论区留言,关注。谢谢您的阅读!

  往期学习笔记:

Windows系统开启Linux子系统(Ubuntu)

Linux常用命令(目录操作命令)

Linux常用命令:文件的创建、复制、移动、查找和删除命令

Linux常用命令:文本文件的查看与编辑

Linux常用命令:文本文件的拼接与分割

Linux常用命令:文件的权限管理

Linux常用命令:文件的下载、压缩与解压

Linux常用命令:常见的操作符

Linux常用命令:系统操作命令
 

 Linux文本处理三剑客:grep

Linux文本处理三剑客:sed

Linux文本处理三剑客:awk

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/424829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快速解决maven依赖冲突

我们在开发过程中经常出现maven依赖冲突&#xff0c;或者maven版本不匹配的情况&#xff0c;我们可以使用阿里云原生脚手架来做maven管理&#xff0c;添加需要的组件&#xff0c;然后点击获取代码&#xff0c;就可以获得对应的依赖文件。

【C语言】InfiniBand驱动mlx4_init和mlx4_cleanup

一、中文注释 Linux内核模块的初始化和清理过程&#xff0c;针对一个称为mlx4的网络设备驱动。以下是代码的逐行中文注释&#xff1a; static int __init mlx4_init(void) {int ret;if (mlx4_verify_params())return -EINVAL; // 检查设备参数是否有效&#xff0c;无效则返回…

.idea文件详解

.idea文件的作用&#xff1a; .idea文件夹是存储IntelliJ IDEA项目的配置信息&#xff0c;主要内容有IntelliJ IDEA项目本身的一些编译配置、文件编码信息、jar包的数据源和相关的插件配置信息。一般用git做版本控制的时候会把.idea文件夹排除&#xff0c;因为这个文件下保存的…

ABAP - SALV教程08 列设置热点及绑定点击事件

实现思路&#xff1a;将列设置成热点&#xff0c;热点列是可点击的&#xff0c;再给SALV实例对象注册点击事件即可&#xff0c;一般作用于点击单号跳转到前台等功能 "设置热点方法METHODS:set_hotspot CHANGING co_alv TYPE REF TO cl_salv_table...."事件处理方法M…

OSCP靶场--Hepet

OSCP靶场–Hepet 考点(1.邮件获取 2.msf恶意宏文档制作 3. 邮件投递恶意宏文档 4.服务配置不当提权) 1.nmap扫描 ┌──(root㉿kali)-[~/Desktop] └─# nmap -sV -sC -p- 192.168.188.140 --min-rate 2000 Starting Nmap 7.92 ( https://nmap.org ) at 2024-03-01 05:46 ES…

【网上商城系统的设计与开发】

目录 1.实训概况 1 1.1 实训题目 1 1.2实训时间 1 1.3实训目的 1 1.4 实训环境 1 1.5 实训内容 2 1.6 进度安排 3 2.需求分析 5 2.1 功能需求分析 5 2.1.1用户需求分析 5 2.2.2网站前台需求 5 2.2.3网站后台需求 6 2.2 可行性分析 7 2.2.1社会可行性 7 2.2.2技术可行性 8 3.系统…

通过多进程并发方式(fork)实现服务器(注意要回收子进程)

以下内容为视频学习记录。 1、父进程accept后返回的文件描述符为cfd以及用于创建连接的lfd; 调用fork()创建子进程后&#xff0c;子进程继承cfd,lfd&#xff0c;通过该cfd与连接过来的客户端通信,lfd对子进程来说没用&#xff0c;可以直接close(lfd); 对于父进程来说&#x…

如何利用ChatGPT搞科研?论文检索、写作、基金润色、数据分析、科研绘图(全球地图、植被图、箱型图、雷达图、玫瑰图、气泡图、森林图等)

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮&#xff0c;可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

2023天津公租房网上登记流程图,注册到信息填写

2023年天津市公共租赁住房网上登记流程图 小编为大家整理了天津市公共租赁住房网上登记流程&#xff0c;从登记到填写信息。 想要体验的朋友请看一下。 申请天津公共租赁住房时拒绝申报家庭情况会怎样&#xff1f; 天津市住房保障家庭在享受住房保障期间&#xff0c;如在应申…

安装 node 错误的配置环境变量之后使用 npm 报错,更换淘宝镜像 (cnpm)

安装 node 错误的配置环境变量之后使用 npm 报错&#xff0c;更换淘宝镜像 (cnpm) node:internal/modules/cjs/loader:1147 throw err; ^ Error: Cannot find module ‘F:\ACodeTools\Node\node_modules\npm\bin\node_modules\npm\bin\npm-cli.js’ at Module._resolveFilename…

JVM(6)

JMM JVM定义了一种Java内存模型来屏蔽掉各种硬件和操作系统的内存访问差异,以实现让Java程序在各种平台下都能达到一致的内存访问效果.在此之前,C/C直接使用物理硬件和操作系统的内存模型,因此,会由于不同平台下的内存模型差异,有可能导致程序在一套平台上并发完全正常,而在另…

多输入多输出 | MATLAB实现GWO-Elman灰狼优化循环神经网络多输入多输出预测

多输入多输出 | MATLAB实现GWO-Elman灰狼优化循环神经网络多输入多输出预测 目录 多输入多输出 | MATLAB实现GWO-Elman灰狼优化循环神经网络多输入多输出预测预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 Matlab实现GWO-Elman灰狼优化循环神经网络多输入多输出…

手把手教测试,全网内容最全有深度-jmeter-Flow Control Action

5.1.7.6.Flow Control Action(测试活动) Logical Action on Thread&#xff1a; Pause 暂停&#xff0c;配合 Duration 一起使用&#xff1b;Duration(milliseconds) 延迟时间&#xff0c;单位是毫秒 Start Next Thread Loop 开始本线程下一次循环 设置线程组线程数2&#xff…

(资源篇)2025届暑假实习春招全攻略路线

绝对的全攻略&#xff0c;资源完善程度绝对的全网唯一。 觉得有帮助的&#xff1a;随手一键三连关注就是对up主最大的激励。 绝对的宝藏up主&#xff01;&#xff01;&#xff01;&#xff0c;up主每天都会进行更新视频&#xff0c;算法视频or校招信息or八股讲解。 【暴躁老…

位运算第二弹

力扣191.位1的个数 public class Solution {// you need to treat n as an unsigned valuepublic int hammingWeight(int n) {int ret0;while(n!0){n(n&n-1);ret;}return ret;} } 推荐是自己去手动推一下&#xff0c;深刻理解一下&#xff0c;什么叫做最右侧的1。 力扣338.…

在docker中搭建selenium 爬虫环境(3分钟快速搭建)

1、安装docker 省略 2、拉取镜像 docker pull selenium/standalone-chrome-debug 3、运行容器 docker run -d -p 4444:4444 -p 5900:5900 -v C:\Users\Public\VNC_Donwnloads:/home/seluser/Downloads --memory6g --name selenium_chrome selenium/standalone-chrome-debu…

[VulnHub靶机渗透] CONNECT THE DOTS

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

《秦时明月》IP新高度:与陕西历史博物馆共同书写文化传承新篇章!

在IP产业风起云涌的今天&#xff0c;如何以创意和匠心为传统文化注入新的活力&#xff0c;成为了摆在每一位文化工作者面前的重要课题。近日&#xff0c;《秦时明月》作为一部深受观众喜爱的国产动画IP&#xff0c;在迎来其十七周年之际&#xff0c;联手陕西历史博物馆&#xf…

字符函数和字符串函数(下)

个人主页&#xff08;找往期文章包括但不限于本期文章中不懂的知识点&#xff09;&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 目录 strncpy函数的使用 函数原型&#xff1a; strncpy的使用 strncat函数的使用 函数原型&#xff1a; strncat的使用 strncmp函数的使用 函…

Vue开发实例(三)项目引入Element-UI

项目引入Element-UI 一、引入Element-UI二、注册组件1、vue2使用element-ui2、vue3使用element-ui 三、使用Element组件1、轻微改造2、验证element是否生效 一、引入Element-UI npm i element-ui --save npm install element-ui -S等待安装完成 二、注册组件 1、vue2使用ele…