读源码学C之阅读李恒的bioawk

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 目前尚没有能力直接去阅读htslib的源代码,看到bioawk的代码稍微简单点,因此准备先从这里下手,bioawk的项目地址为https://github.com/lh3/bioawk。

目前尚没有能力直接去阅读htslib的源代码,看到bioawk的代码稍微简单点,因此准备先从这里下手,bioawk的项目地址为https://github.com/lh3/bioawk

这次先阅读了"main.c"部分学习如何解析参数。

1-23: 版权信息部分

img_a969965a17172aaba49e2d9707ab6859.png
copyright

25: 版本信息
27: #define创建自己的常量和宏
27-35: 导入标准库的头文件和原来awk的头文件

img_035eafc84a20ace917bfa59bcdd00a3d.png
导入标准库

37-38: extern声明后面的变量来自于其他文件,避免编译时报错

img_87daf2489fc48b00d10c002b7817923e.png
声明外部变量

49-53: 定义后续用于解析的最大程序文件数(pfile), 当前解析的程序文件(curpfile)

img_7d883a53c5e93342fef4ce6f8a6adf5d.png
定义变量

62-63: setlocale设置区域相关的设置,其中LC_CTYPE 影响所有字符函数。LC_NUMERIC影响 localeconv 函数提供的小数点格式化和信息

img_412e172f92d6fffa24c45f0815948215.png
区域相关设置

65:获取程序的名字
66-70:如果参数只有一个,也就是只输入程序名,那么就用fprintf将信息格式化输出的标准错误输出(stderr),也就是你可以用bioawk 2> err.log而不是bioawk > err.log报错报错信息。

img_4c4096c60decb7fa29ef1ff5226b02fb.png
判断

78:使用while语句开始解析参数。 argv[1][0] == '-' &&argv[1][1] != '\0' 表示第二个C语言接受的第二个参数是-, --开头的参数

img_e4fb52e27bf8bebc027d20cf396c880c.png
解析参数

79-83:使用string.h的strcmp进行文本比较,如果输入是 "-version" 或者是 "--version" 则输出版本信息,其中version在第25行定义。 strcmp返回0表示比较的内容相同,否则都是不相同。最后用break跳出循环

img_0aa2a052bd6474af90dc1403835878cb.png
版本参数

84-88: 使用string.h的strncmp比较两个字符串的最多n个字符。 也就是说,你可以用bioawk -c fastx ------------ '{printf $seq’ xxxx.fa 这种无聊的操作. 后续的argc--argv--对当前解析的参数位置进行移动,就能读取到后面的参数了。

img_389584072bdfb69d4c4ca9ad7a1a3813.png
显示声明参数结尾

89: 开始用switch解析短参数

90-93:用strcmp判断是否是 -safe,是的话就将safe赋值为1,最后跳出switch,

img_33d045fafb4cbb72e1ac510e7d5059e8.png
第一个判断

167-168:跳出switch之后,--argc++argv进行参数偏移,也就是读取下一个参数

img_9e7d88a84c62b85bfcfbddd3576a3619.png
跳出循环

94-107: 处理program文件。将文件名存放到pfile(字符串数组),也就是将文件名开头的字符的地址( &argv[1][2])存放到pfile数组中。这里考虑有两种习惯,一种是-fsomefile,另一种是-f samefile, 其中后者需要对输入参数进行偏移。

img_ea6edcb2e0103df86fd894e32ce00456.png
处理program文件

108-123:处理分隔符。同样考虑到-F"\t和-F t这两种情况

img_8a3a373557fd6acccb878d2f562fe781.png
image.png

124-126:使用string.h的strcpy进行文本复制。

img_4484f9ba1c50900ee4ee192caf69b9af.png
复制字符串

144-149: 使用stdlib.h的atoi函数将字符串转成数值。这里发现如果用bioawk -d 0就会进行调试模式哦,这和原本awk -d是不同的。

img_b5e75198c70911cde0c2a4434558718c.png
调试功能

153-162:对格式进行解析。

img_74cd8adaeb49f5cea3d4ee903da67300.png
选择格式
目录
相关文章
|
5月前
|
人工智能 机器人
RPA是什么?为啥要学习RPA,看这篇就够了
RPA是什么?为啥要学习RPA,看这篇就够了
331 2
|
7月前
|
NoSQL Java 应用服务中间件
关于阅读源码
【1月更文挑战第12天】关于阅读源码
|
设计模式 JavaScript 前端开发
|
缓存 算法 安全
程序员写代码为什么要阅读源码?
阅读一篇技术文章,畅聊一个技术话题。本期文章推荐的是《Node 中的 AsyncLocalStorage 的前世今生和未来》,一起来聊聊开发者阅读源码的这件事。阅读源码的过程实质上是对软件构建技术和架构深度的一种持续学习和理解。阅读源码可以揭示代码的内在逻辑,可以对技术深度的理解,也能提高对技术的理解程度。然而,仅仅阅读源码并不能代替实践操作,因为通过实践,可以更加全面的理解代码的深度和进展。
159 1
|
小程序 开发工具 UED
实现各种效果和功能的按钮,读这篇文章就够了
本文主要内容包含各种效果和功能的按钮的实现方法,以及应用场景。 如果你没有任何的游戏开发经验,欢迎阅读我的“人人都能做游戏”系列教程,它会手把手的教你做出自己的第一个小游戏。
166 0
|
存储 开发者
彻底搞懂函数,读这篇文章就够了
如果你之前使用过任何一门编程语言,那么对于你来讲想必已经知道什么是函数,以及如何使用函数了,那你大可不必往下读了。这篇文章是写给新手看的,也就是说我假设你对于函数没有任何的概念。 我们就先从什么是函数来说起吧!
126 0
|
存储 小程序 容器
想做个答题类的微信小游戏?读这篇文章就够了
本文重要内容包含答题类小游戏的制作原理和制作方法,在掌握实现原理和方法后,你也能够根据自己的需要,制作自己的答题类小游戏。 如果你没有任何的游戏开发经验,欢迎阅读我的“人人都能做游戏”系列教程,它会手把手的教你做出自己的第一个小游戏。
224 0
|
设计模式 分布式计算 资源调度
如何阅读源码
如何阅读源码
218 0
|
算法 Java 中间件
阅读优秀项目源码很重要,分享一个读源码的方法,小白都能学会
作为一个程序员,经常需要读一些开源项目的源码。同时呢,读源码对我们也有很多好处: 1.提升自己 2.修复 Bug 3.增加新功能
阅读优秀项目源码很重要,分享一个读源码的方法,小白都能学会