Linux 三剑客之 awk 实战详解教程
大家好,我是肖邦,这是我的第 12 篇原创文章。
我们知道 Linux 三剑客,它们是 grep
、sed
、awk
。在前边已经讲过 grep 和 sed,没看过的同学可以直接点击阅读,今天要分享的是更为强大的 awk
。
sed 可以实现非交互式的字符串替换,grep 能够实现有效的过滤功能。与两者相比,awk 是一款强大的文本分析工具,在对数据分析并生成报告时,显得尤为强悍。
awk 强大的功能,是一般 Linux 命令无法比拟的。在本文中,我不会告诉你 awk 也是一种编程语言,免得会吓到你。我们只需把它当做 Linux 下一款强大的文本分析工具即可。
这篇文章,我仍然秉持着 实用、实践 原则,提供大量的示例,但不会面面俱到。通过本文可以帮助你,快速将 awk 运用起来,这些东西足够应付工作中大多数应用场景。
场景
学习具体使用前,先来看下 awk 能干些什么事情:
1. 能够将给定的文本内容,按照我们期望的格式输出显示,打印成报表。
2. 分析处理系统日志,快速地分析挖掘我们关心的数据,并生成统计信息;
3. 方便地用来统计数据,比如网站的访问量,访问的 IP 量等;
4. 通过各种工具的组合,快速地汇总分析系统的运行信息,让你对系统的运行了如指掌;
5. 强大的脚本语言表达能力,支持循环、条件、数组等语法,助你分析更加复杂的数据;
......
当然 awk 不仅能做这些事情,当你将它的用法融汇贯通时,可以随心所欲的按照你的意愿,来进行高效的数据分析和统计。
不过我们需要知道,awk 不是万能的,它比较擅长处理格式化的文本,比如 日志、csv 格式数据等;
原理
我们先来简单了解 awk 基本工作原理,通过下边的图文讲述,希望你能了解 awk 到底是如何工作的。
awk 基本命令格式
结合下图来详细说明 awk 工作原理
-
首先,执行关键字
BEGIN
标识的{}
中的命令; -
完成
BEGIN
大括号中命令的后,开始执行body
命令; -
逐行读取数据,默认读到
\n
分割的内容为一条 记录,其实就是 行的概念; -
将 记录按照指定的分隔符划分为 字段,其实就是 列的概念;
-
循环执行
body
块中的命令,每读取一行,执行一次body
,最终完成body
执行; -
最后,执行
END
命令,通常会在END
中输出最后的结果;
awk 是输入驱动的,有多少输入行,就会执行多少次 body
命令。
我们在下边的示例学习中,要时刻记着:记录 (Record) 就是行,字段 (Field) 就是列,BEGIN
是预处理阶段,body
是 awk 真正工作的阶段,END
是最后处理阶段。
实战 - 入门
从下边内容开始,我们直接进入到实战。为了方便举例,我先把如下信息保存到 file.txt
好了,我们先来一个最简单最常用的 awk 示例,输出第 1、4、8 列:
大括号里边的就是 awk 语句,只能被单引号包含,其中,$1..$N
表示第几列,$0
表示整个行内容
再来看下 awk
比较实用的功能 格式化输出。和 C
语言的 printf
格式输出是一毛一样,我个人特别喜欢这种格式化方式,而不是 C++
中的流的方式。
%s
表示字符串占位符,-4
表示列宽度为 4
,且左对齐,我们还可以根据需要,列出更复杂的格式来,这里先不详细举例了。
实战 - 进阶
(一)过滤记录
有些数据可能不是你想要的,可以根据需要进行过滤
上边的过滤条件为,第 3 列为 root 且第 6 列为 10 的行,才会被输出。
awk 支持各种比较运算符号 !=
、>
、<
、>=
、<=
,其中 $0
表示整行的所有内容。
(二)内置变量
awk 内置了一些变量,更方便我们对数据的处理
过滤第 3 列为 root 用户,以及第 2 行内容,且打印时输出行号。NR
表示当前第几行,NF
表示当前行有几列。
(三)指定分隔符
我们的数据,不总是以空格为分隔符,我们可以通过 FS
变量指定分隔符。
我们指定分隔符为 2019
,这样就将行内容分割为了两部分,将 2019
替换成了 *
上边的命令也可以通过 -F
选项指定分割符
如果你需要指定多个分隔符,可以这样做 -F '[;:]'
。相信聪明的你,一定能够理解并融会贯通的。
同样,awk 可以指定输出时的分隔符,通过 OFS
变量来设置
输出时,各字段用 OFS
指定的符号进行了分隔。
实战 - 高级
(一)条件匹配
列出 root 用户的所有文件,以及第一行文件
上边匹配第三列中包含 root
的行,~
其实就是正则表达式的匹配。
同样,awk 可以像 grep 一样匹配某一行,就像这样
另外,可以这样 /Aug|Dec/
匹配多个关键词。
模式取反可以使用 !
符号
(二)拆分文件
我们来做一件有意思的事情,可以将文本信息拆分为多个文件,下边命令按照月份(第5列)将文件信息拆分为多个文件
awk 支持重定向符号 >
,直接将每行内容重定向到月份命名的文件了,当然你也可以把指定的列输出到文件
(三)if 语句
复杂的条件判断,可以使用 awk 的 if
语句,awk 的强大正因为它是个脚本解释器,拥有一般脚本语言的编程能力,下边示例通过稍微复杂的条件进行拆分文件
要注意,if
语句是在大括号里边的。
(四)统计
统计当前目录下,所有 *.c
、*.h
文件所占用空间大小总和
第 5 列表示文件大小,每读取一行就会将该文件大小计算到 sum
变量中,在最后 END
阶段打印出 sum
,也就是所有文件的大小总和。
再来看一个例子,统计每个用户的进程占用了多少内存,注意取值的是 RSS 那一列
这里用到了 数组 和 for 循环,值得一提的是,awk 的数组可以理解为字典或 Map
,key 可以是数值和字符串,这种数据类型在平时很常用。
(五)字符串
通过下边简单示例,展示 awk 对字符串操作的支持
awk 内置支持一系列的字符串函数,length
计算字符串长度,toupper
函数转换字符串为大写。
实战 - 技巧
为了从整体上理解 awk 工作机制,我们再来看一个综合的示例,假设有一个学生成绩单:
由于此示例程序稍显复杂,在命令行上不易读,另外呢,也想通过此案例介绍另外一种 awk 的执行方式,我们的 awk 脚本如下:
执行 awk 结果如下
我们可以将复杂的 awk 语句写入脚本文件 cal.awk
,然后通过 -f
选项指定从脚本文件执行。
-
在
BEGIN
阶段,我们初始化了相关变量,并打印了表头的格式 -
在
body
阶段,我们读取每一行数据,计算该学科和该同学的总成绩 -
在
END
阶段,我们先打印了表尾的格式,并打印总成绩,以及计算了平均值
这个简单示例,完整的体现了 awk 的工作机制和原理,希望通过此示例能够帮你真正理解 awk 是如何工作的。
总结归纳
通过上述的示例,我们学习到了 awk 的工作原理,下边我们来总结下几个概念和常用的知识点。
(一)内置变量
1. 每一行内容记录,叫做记录,英文名称 Record
2. 每行中通过分隔符隔开的每一列,叫做字段,英文名称 Field
明确这几个概念后,我们来总结几个重要的内置变量:
-
NR
:表示当前的行数; -
NF
:表示当前的列数; -
RS
:行分隔符,默认是换行; -
FS
:列分隔符,默认是空格和制表符; -
OFS
:输出列分隔符,用于打印时分割字段,默认为空格 -
ORS
:输出行分隔符,用于打印时分割记录,默认为换行符
(二)输出格式
awk 提供 printf
函数进行格式化输出功能,具体的使用方式和 C
语法基本一致。
基本用法
常用的格式化方式:
-
%d
十进制有符号整数 -
%u
十进制无符号整数 -
%f
浮点数 -
%s
字符串 -
%c
单个字符 -
%e
指数形式的浮点数 -
%x
%X
无符号以十六进制表示的整数 -
%0
无符号以八进制表示的整数 -
%g
自动选择合适的表示法 -
\n
换行符 -
\t
Tab符
(三)编程语句
awk 不仅是一个 Linux 命令行工具,它其实是一门脚本语言,支持程序设计语言所有的控制结构,它支持:
-
条件语句
-
循环语句
-
数组
-
函数
(四)常用函数
awk 内置了大量的有用函数功能,也支持自定义函数,允许你编写自己的函数来扩展内置函数。
这里只简单罗列一些比较常用的字符串函数:
-
index(s, t)
返回子串 t 在 s 中的位置 -
length(s)
返回字符串 s 的长度 -
split(s, a, sep)
分割字符串,并将分割后的各字段存放在数组 a 中 -
substr(s, p, n)
根据参数,返回子串 -
tolower(s)
将字符串转换为小写 -
toupper(s)
将字符串转换为大写
这里只简单总结一些常用的字符串功能函数,具体使用方法,还需要你参照前边的示例程序,举一反三,运用到实际问题中。
~~~~~ End ~~~~~
本次分享就到这里了,谢谢大家的阅读,我是肖邦。关注我的公众号「编程修养」,大量的干货文章等你来!公众号后台回复「1024」有惊喜!
推荐阅读:
本文分享自微信公众号 - 编程修养(chopin11vip)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Golang 并发编程实践
人是一种高并发的物种,细品。 初识 对 Go 语言的第一印象就是其原生地支持并发编程,而且使用的是协程,比线程更加轻量。 关于进程、线程和协程的区别 进程是“程序执行的一个实例” ,担当分配系统资源的实体。进程创建必须分配一个完整的独立地址空间。进程切换只发生在内核态。 线程:线程是进程的一个执行流,独立执行它自己的程序代码,是程序执行流的最小单元,是处理器调度和分派的基本单位。一个进程可以有一个或多个线程。 协程:协程不是进程或线程,其执行过程更类似于子例程,或者说不带返回值的函数调用。在语言级别可以创建并发协程,然后编写代码去进行管理。Go 将这一步承包下来,使协程并发运行成本更低。 Go 实现最简单的并发 for i := 0; i < 10; i++ { go func(n int) { fmt.Println(n) }(i) } 项目实践 最近有个项目需要同时调用多个 job,并要等待这些 job 完成之后才能往下执行。 串行执行 job 最开始,我们拥有一个执行 job 的方法,并且串行执行所有的 job: func buildJob(name string)...
- 下一篇
TestableMock v0.6.0 发布,新增测试参数快速构造工具
项目介绍 TestableMock是一款由阿里效能团队开源的Java单元测试增强工具,提供四项具有针对性的辅助能力: 快速Mock任意调用:解决传统Mock工具使用繁琐的问题 访问被测类私有成员:解决被测类私有成员初始化和私有方法测试的问题 快速构造任意对象:解决被测方法参数初始化代码冗长的问题 辅助测试void方法:解决无返回值方法难以实施单元测试的问题 更新内容 增加OmniConstructor和OmniAccessor,支持快速构建方法入参 修复一处FRAME FULL字节码处理的异常 移除@MockWith的diagnose参数支持 文档地址 Github文档地址 Gitee文档镜像
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Hadoop3单机部署,实现最简伪集群