linux命令用于删除文本文件中的重复行的命令uniq详解

目录

一、概述

二、基本用法

1、uniq 命令的基本语法

2、常用选项

3、获取帮助

三、主要功能

1. 识别并删除相邻重复行

2. 保留重复行的第一个实例

3. 统计重复次数

4. 忽略指定列的比较

四、示例

 1. 删除相邻重复行

 2. 显示每一行及其重复次数

 3. 只显示重复行

 4. 只显示唯一行

 5. 忽略每行开头的 1 个字段

 6. 比较时忽略每行的前 3 个字符

 7. 忽略每行的前 2 列

五、实际应用场景

1、数据清洗

2、统计分析

3、脚本开发

六、其他


一、概述

        uniq 是 Linux 和 Unix 系统中一个非常有用的命令行工具,主要用于处理文本文件中的重复行。它可以识别相邻的重复行,并根据需要保留或删除这些重复行。

二、基本用法

1、uniq 命令的基本语法

uniq 命令的基本语法如下:

uniq [OPTION]... [INPUT [OUTPUT]]  

如果不指定输入文件,则默认从标准输入(stdin)读取数据。

(1) input-file 是要处理的输入文件名。如果未指定,uniq 将从标准输入读取数据。

(2)output-file 是输出文件的名称。如果未指定,uniq 将把结果输出到标准输出。

2、常用选项

(1). -c:

   - 显示每一行及其重复次数。

   - 示例:    

     uniq -c input_file   

(2). -d:

   - 只显示重复行。

   - 示例:    

     uniq -d input_file    

(3). -u:

   - 只显示唯一行(即不重复的行)。

   - 示例:    

     uniq -u input_file  

(4). -f N:

   - 忽略每行开头的 N 个字段。

   - 示例:    

     uniq -f 1 input_file   

(5). -w N:

   - 比较时忽略每行的前 N 字符。

   - 示例:    

     uniq -w 3 input_file    

(6). -n N:

   - 指定忽略每行的前 N 列(适用于固定宽度的列)。

   - 示例:    

     uniq -n 2 input_file   

3、获取帮助

输入如下命令:

uniq –h

出现如下图所示的帮助信息:

三、主要功能

1. 识别并删除相邻重复行

   - uniq 默认会删除连续的重复行,只保留一个实例。

2. 保留重复行的第一个实例

   - 如果需要保留第一个重复行,uniq 会保留第一次出现的行,并删除后续的重复行。

3. 统计重复次数

   - 可以输出每一行及其重复次数。

4. 忽略指定列的比较

   - 可以指定忽略某些列来进行比较,这对于某些特定的文本处理非常有用。

四、示例

假设有一个名为 input.txt 的文件,内容如下:

apple

banana

apple

cherry

apple

date

 1. 删除相邻重复行

sort input.txt | uniq > output.txt

输出结果(output.txt):

apple

banana

cherry

date

实际操作结果如下:

 2. 显示每一行及其重复次数

sort input.txt | uniq -c

输出结果:

1 banana

1 cherry

1 date

3 apple

实际操作结果如下:

 3. 只显示重复行

sort input.txt | uniq -d

输出结果:

apple

实际操作结果如下:

 4. 只显示唯一行

sort input.txt | uniq -u

输出结果:

banana

cherry

date

实际操作结果如下:

 5. 忽略每行开头的 1 个字段

假设每行由空格分隔的多个字段组成:

cat input.txt | uniq -f 1

 6. 比较时忽略每行的前 3 个字符

cat input.txt | uniq -w 3

 7. 忽略每行的前 2 列

假设每行由固定宽度的两列组成:

cat input.txt | uniq -n 2

五、实际应用场景

uniq 命令在很多场景下都非常有用,比如:

1、数据清洗

去除文本文件中的重复记录。

2、统计分析

统计文本文件中各条目的出现次数。

3、脚本开发

配合其他命令行工具(如 grep、sort、awk 等)进行文本处理。

六、其他

1、uniq 命令只能识别连续出现的重复行,因此通常与 sort 命令结合使用。

2、默认情况下,uniq 区分大小写。

3、使用 -c、-d、-D、-u 等选项时,可以根据需要选择性地显示重复行、不重复行或它们的计数。

uniq 是一个功能强大的命令行工具,用于处理文本文件中的重复行。通过灵活运用各种选项,可以实现多种文本处理任务。理解 uniq 的工作原理和使用方法,可以帮助技术人员在日常工作中更加高效地处理文本数据。


文章正下方可以看到我的联系方式:鼠标“点击” 下面的 “威迪斯特-就是video system 微信名片”字样,就会出现我的二维码,欢迎沟通探讨。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/875887.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue | Vue深入浅出——Vue中的render函数详解

1.render函数 在编写vue单文件的大多数情况下,我们都是使用template模板来创建HTML。然而在一些条件判断比较复杂的场景下,使用JavaScript去描绘HTML的生成逻辑会显得更加的简洁直观。 使用Vue官网的例子来简单说明: 如果自己在开发的时候…

RabbitMQ(高阶使用)延时任务

文章内容是学习过程中的知识总结,如有纰漏,欢迎指正 文章目录 1. 什么是延时任务? 1.1 和定时任务区别 2. 延时队列使用场景 3. 常见方案 3.1 数据库轮询 优点 缺点 3.2 JDK的延迟队列 优点 缺点 3.3 netty时间轮算法 优点 缺点 3.4 使用消息…

2024非常全的接口测试面试题及参考答案

一、前言 接口测试最近几年被炒的火热了,越来越多的测试同行意识到接口测试的重要性。接口测试为什么会如此重要呢? 主要是平常的功能点点点,大家水平都一样,是个人都能点,面试时候如果问你平常在公司怎么测试的&…

【MPC】无人机模型预测控制复现Data-Driven MPC for Quadrotors项目(Part 1)

无人机模型预测控制复现Data-Driven MPC for Quadrotors项目 参考链接背景和问题方法与贡献实验结果安装ROS创建工作空间下载RotorS仿真器源码和依赖创建Python虚拟环境下载data_driven_mpc仓库代码下载并配置ACADO求解器下载并配置ACADO求解器的Python接口下载并配置rpg_quadr…

计算机网络八股总结

这里写目录标题 网络模型划分(五层和七层)及每一层的功能五层网络模型七层网络模型(OSI模型) 三次握手和四次挥手具体过程及原因三次握手四次挥手 TCP/IP协议组成UDP协议与TCP/IP协议的区别Http协议相关知识网络地址,子…

学习笔记 - 知识图谱的符号表示方法

学习笔记 - 知识图谱的符号表示方法 说明: 首次发表日期:2024-09-13个人阅读学习并摘录成笔记 知识表示的相关名词定义 以下内容摘录自 Knowledge Graphs Applied 2.3小节,然后AI翻译人工润色。 实体(Entities)—表…

共享单车轨迹数据分析:以厦门市共享单车数据为例(四)

副标题:共享单车与地铁接驳距离探究——以厦门市为例 关于轨道交通站点接驳范围的研究早已屡见不鲜,通常认为以站点为圆心、800米作为地铁站直接的服务范围是合理的。近年来,随着轨道、公交和慢行交通三网融合概念的提出,慢行交通…

【人工智能】Transformers之Pipeline(十七):文本分类(text-classification)

目录 一、引言 二、文本分类(text-classification) 2.1 概述 2.2 DistilBERT—BERT 的精简版:更小、更快、更便宜、更轻便 2.3 应用场景​​​​​​​ 2.4 pipeline参数 2.4.1 pipeline对象实例化参数 2.4.2 pipeline对象使用参数 …

探索2B法则—趋势反转的高效策略

在之前,我们曾讲过123法则,这是一种基于道氏理论的分析方法,用于确认趋势反转和识别开仓信号。而今日我们就再来聊聊与之相似的2B法则,这是123法则的一种变形,用途和123法则一样,但比之成功率会更高&#x…

白盒测试与黑盒测试

✨博客主页: https://blog.csdn.net/m0_63815035?typeblog 💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏: https://blog.csdn.net/m0_63815035/cat…

GIS在线监测SF6密度微水定量检漏仪传感器专用波纹管免焊接格兰头

SF6密度微水在线监测装置配套M12母头5孔格兰头穿波纹管连接器,该传感器能够监测SF6气体的露点,从而实现对SF6气体在线监测。 原理 SF6露点在线监测传感器是一种可以监测SF6气体露点的传感器它的工作原理是通过吸收SF6气体中的水分子来测量SF6气体的露点。…

k8s 资源管理

文章目录 ResourceQuota什么是资源配额定义一个ResourceQuotaResourceQuota的使用 LimitRangeLimitRange的用途示例1:配置默认的requests和limits示例2:配置requests和limits的范围 QoS什么是服务质量保证示例1:实现QoS为Guaranteed的Pod示例…

git的快速合并fast-forward merge详解

文章目录 1. 什么是快进合并?2. 快进合并的前提条件3. 快进合并的工作原理3.1 示例场景:3.2 使用命令:3.3 快进合并的视觉效果: 4. 快进合并的优点5. 快进合并的缺点6. 快进合并 vs 非快进合并6.1 非快进合并:6.2 非快…

splice用法

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

Google推出Data Commons解决AI“幻觉”

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

使用LDAP登录GitLab

使用LDAP登录GitLab gitlab.rb 配置如下 gitlab_rails[ldap_enabled] true #gitlab_rails[prevent_ldap_sign_in] false###! **remember to close this block with EOS below** gitlab_rails[ldap_servers] YAML.load <<-EOSmain:label: LDAPhost: 172.16.10.180port:…

C++ | Leetcode C++题解之第398题随机数索引

题目&#xff1a; 题解&#xff1a; class Solution {vector<int> &nums; public:Solution(vector<int> &nums) : nums(nums) {}int pick(int target) {int ans;for (int i 0, cnt 0; i < nums.size(); i) {if (nums[i] target) {cnt; // 第 cnt 次…

c++中的继承和多态

目录 Linux中的管道通信 ​编辑派生类的默认成员函数 继承 派生类的构造 隐藏 如何设计一个不能被继承的类 菱形继承 virtual virtual是如何解决的 内存对象模型 继承和组合 继承 组合 多态 概念 多态的构成条件 虚函数的重写 Linux中的管道通信 派生类的默认成…

ESKF学习笔记

参考资料 https://zhuanlan.zhihu.com/p/441182819 惯性导航(三)-基于流型的ESKF及代码实现_eskf和ekf-CSDN博客 用ESKF实现IMU/GNSS组合导航&#xff08;学习记录&#xff09;_eskf imu-CSDN博客 0.ESKF与KF的区别以及总体流程 0.1卡尔曼滤波过程 卡尔曼滤波的流程按照1…

unity安装配置和vs2022联动教程

目录 1.选择vs2022配置 2.安装unity 2.1安装unity hub 2.2注册个人账号 2.3安装编辑器 2.4修改为简体中文 2.5添加许可证 2.6安装位置修改 3.项目的创建 3.1如何创建 3.2如何选择 3.3配置语言 3.4去哪里找语言包 4.unity编辑器窗口的介绍 4.1游戏的运行和停止 4…