Awk 是一个功能强大的文本处理工具,可以有效地操作和从文件中提取信息,特别是处理结构化数据,例如日志文件、CSV 文件等。
其最通用的功能之一是能够根据预定义的分隔符从文件中打印特定字段和列。
在本文中,我们将探讨如何利用 Awk 打印字段和列,并提供实际示例和解释来证明其有效性。
在 Awk 中,“字段”是指行中的特定文本段,由预定义的分隔符(例如空格、制表符或逗号)分隔。每个段都分配有一个字段编号,第一个字段为 $1,第二个字段为 $2,依此类推。
类似地,“列”表示跨多行的垂直字段分组。通过利用 Awk 的功能,我们可以有选择地打印或操作这些字段和列,以从数据中提取有价值的信息。
awk 自动将提供给它的输入行划分为字段,并且字段可以定义为通过内部字段分隔符与其他字段分隔的一组字符。
如果您熟悉 Unix/Linux 或进行 bash shell 编程,那么您应该知道内部字段分隔符 (IFS) 变量是什么。 Awk 中默认的 IFS 是制表符和空格。
为了更好地理解 Awk 字段编辑,让我们看一下下面的示例:
打印字段
要使用 Awk 打印文件中的特定字段,您可以使用“print”语句以及所需的字段变量。例如,要打印以逗号分隔的文件的第一个、第二个和第三个字段,我们可以使用以下命令:
awk '{print $1 "," $2 "," $3}' tecmintinfo.txt
在上面的命令中,您可以看到前三个字段的字符是根据定义的 IFS(空格)打印的:
- 第一个字段“TecMint.com”使用 $1 访问。
- 使用 $2 访问第二个字段“is”。
- 第三个字段“the”是使用 $3 访问的。
需要注意并始终记住的一件重要事情是,在 Awk 中使用 ($) 与在 shell 脚本中使用不同。在 shell 脚本中,($) 用于访问变量的值,而在 awk 中,($) 仅在访问字段内容时使用,而不用于访问变量的值。
打印列
要打印文件中的整个列,我们可以通过在“print”语句中指定所需的字段来采用类似的方法。然而,这次我们考虑用多条线来共同表示该列。
例如,要打印文件的第二列和第三列,我们可以使用以下命令:
awk '//{print $2, $3 }' my_shopping.txt
awk 还有一个 printf 命令可以帮助您格式化输出,这是一个很好的方法,因为您可以看到上面的输出不够清晰。
使用 printf 格式化 Item_Name 和 Unit_Price 的输出:
awk '//{printf "%-10s %s\n",$2, $3 }' my_shopping.txt
打印字段和列范围
awk 还允许我们使用“:”运算符定义字段或列的范围。例如,要从文件中打印字段 2 到 4,我们可以使用以下命令。
awk '{print $2 ":" $4}' filename
总结
当使用 awk 过滤文本或字符串时,字段编辑非常重要,它可以帮助您获取列表中列中的特定数据。并且永远记住,Awk 中 ($) 运算符的使用与 shell 脚本中的不同。
希望这篇文章对您有所帮助!