awk参数使用

简介: 【10月更文挑战第17天】awk参数使用

awk参数使用

AWK是一个强大的文本处理工具,广泛应用于Linux系统中的日志分析、数据处理等场景。以下是一些常见的awk参数及其使用方式:

  1. -F

    • 描述:指定输入字段的分隔符。默认为空格或Tab键。
    • 示例awk -F ',' '{print $1,$2}' file.csv(以逗号作为分隔符,打印第1和第2列)。
  2. -v

    • 描述:定义变量并赋值,在脚本中可直接使用。
    • 示例awk -v var="value" 'BEGIN{print var}'(在BEGIN块中打印变量var的值)。
  3. -f

    • 描述:从指定的脚本文件中读取awk命令。
    • 示例awk -f script.awk file(从script.awk文件中读取awk命令并执行)。
  4. -o

    • 描述:将输出结果保存到指定的文件名中。
    • 示例awk -o output.txt '{print $0}' file(将file的内容打印到output.txt文件中)。
  5. -c

    • 描述:仅输出awk处理行的数量。
    • 示例awk -c '{print $0}' file(打印file中行的数量)。
  6. 内置变量

    • $0:整行内容。
    • $n:当前行的第n个字段。
    • NF:当前行的字段个数。
    • NR:当前处理的行数。
    • FNR:各文件分别计数的行号。
    • FILENAME:当前文件名。
    • FS:输入字段分隔符。
    • OFS:输出字段分隔符。
    • RS:输入记录分隔符。
    • ORS:输出记录分隔符。
    • ARGC:命令行参数的个数。
    • ARGV:数组,保存的是命令行所给定的各参数。
  7. 常用action

    • print:打印指定内容到标准输出。
    • printf:格式化输出。
    • if/else:条件语句。
    • while:while循环。
    • for:for循环。
    • next:跳过当前行。
    • exit:退出。
    • BEGINEND是特殊的关键字,BEGIN在所有输入文本处理前执行,END在所有输入文本处理完后执行。
  8. 示例

    • 打印指定列:假设access.log的字段依次为ip、time、method、url、http_version、status_code、body_bytes_sent,打印每行第1、4、7列:
      awk '{print $1,$4,$7}' access.log
      
    • 过滤日志:打印响应状态码为500或404的日志记录:
      awk '$9~/^(500|404)$/{print $0}' access.log
      
    • 按条件统计:统计访问量最高的10个IP:
      awk '{count[$1]++}END{print "IP\tCount";for(ip in count)print ip,"\t",count[ip]}' access.log | sort -k2 -nr | head -10
      
    • 指定多个分隔符:以冒号:或者斜杠/分隔/etc/passwd的每一行,打印第1、5列:
      awk -F '[:/]' '{print $1,$5}' /etc/passwd
      
    • 日志切割:将nginx.log按小时切割,小时精确到10位:
      awk '{split($4,array,"[:/]");file=array[2]array[3]substr(array[4],1,2)".log";print $0 >> file}' nginx.log
      
    • 匹配指定列:在student.txt中筛选第2列值为Tom的行:
      awk '$2 ~ /^Tom$/' student.txt
      
    • 统计文件大小:统计/home目录下用户目录的大小:
      awk 'BEGIN{printf "%-15s %-15s %-15s
      ","User","Home","Size(MB)"}{split($2,path,"/");size=sprintf("%.2f",$3/1024/1024);printf "%-15s %-15s %-15s
      ", path[3],path[2]"/"path[3],size}' <(du -sb /home/*)
      

总结来说,AWK是一个功能强大的文本处理工具,通过灵活运用其参数和内置变量,可以高效地完成各种文本处理任务。

目录
相关文章
|
3天前
|
SQL 人工智能 安全
【灵码助力安全1】——利用通义灵码辅助快速代码审计的最佳实践
本文介绍了作者在数据安全比赛中遇到的一个开源框架的代码审计过程。作者使用了多种工具,特别是“通义灵码”,帮助发现了多个高危漏洞,包括路径遍历、文件上传、目录删除、SQL注入和XSS漏洞。文章详细描述了如何利用这些工具进行漏洞定位和验证,并分享了使用“通义灵码”的心得和体验。最后,作者总结了AI在代码审计中的优势和不足,并展望了未来的发展方向。
|
11天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
17天前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
2712 8
|
13天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1576 12
|
5天前
|
人工智能 关系型数据库 Serverless
1024,致开发者们——希望和你一起用技术人独有的方式,庆祝你的主场
阿里云开发者社区推出“1024·云上见”程序员节专题活动,包括云上实操、开发者测评和征文三个分会场,提供14个实操活动、3个解决方案、3 个产品方案的测评及征文比赛,旨在帮助开发者提升技能、分享经验,共筑技术梦想。
703 94
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
18天前
|
人工智能 Serverless API
AI助理精准匹配,为您推荐方案——如何快速在网站上增加一个AI助手
通过向AI助理提问的方式,生成一个技术方案:在网站上增加一个AI助手,提供7*24的全天候服务,即时回答用户的问题和解决他们可能遇到的问题,无需等待人工客服上班,显著提升用户体验。
1466 9
|
6天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
355 0
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
2天前
|
人工智能 自然语言处理 程序员
提交通义灵码创新实践文章,重磅好礼只等你来!
通义灵码创新实践征集赛正式开启,发布征文有机会获得重磅好礼+流量福利,快来参加吧!
196 7
|
16天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
876 29