【Lua篇】静态代码扫描分析(二)词法分析
一、词法分析
词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。
二、Lua词法分析器
首先需要读取Lua文件中的内容,然后逐字符读取进行判断组合成一个一个的单词。判断单词就需要了解Lua语言中的数据类型,具体如下:
- 变量标识符
- 单个字符 例如a = 1中的“a”
- 多个字符 例如 player
- 下划线开头 例如 _key
- 字符和数字组合 例如 key123、_key23
- 数字
- 整数 例如 123、0、2021
- 小数 例如 3.1415926、.41
- 十六进制 例如 0x0044、0XFF1A、0xab12
- 科学计数法 例如 2e-2、0.2e+1
- 字符串
- 双引号 "Hello Lua"
- 单引号 'abcd'
- 双中括号(多行) [[xxzz]]
- 关键字
- 本质上可以和标识符合并,然后读取出来后再进行匹配。
- 操作符号
- 算术运算 +、-、*、/、%
- 比较运算 >、<、==、>=、<=
- 赋值运算 “=”
- 位运算
- 字符串连接符 “..”
- 注释
- 单行注释 以 “--”开始 到 行末
- 多行注释 “--[[” 开始 到 “]]” 结束
大体了解了Lua语言的组成后,就可以开始编写词法分析程序了,下面展示了部分代码用于说明整个词法分析的过程。
1) 首先需要写字符的处理方法。get_char 用于从字符流中取出下一个字符;peek_char 返回下一个字符但不从字符流中取出;put_char 将取出的字符放回去。
def get_char(self): """ 取出下1个字符 """ if self._Index + 1 < self._FileSize: self._Index += 1 return self._StreamBuff[self._Index] else: return None def peek_char(self): """ 获取下1个字符,但不取出 """ if self._Index + 1 < self._FileSize: return self._StreamBuff[self._Index + 1] return None def put_char(self): """ 回退获取的字符 """ if self._Index > -1: self._Index -= 1
2) 识别并组成一个Token单词。循环获取字符,并进行逐个条件判断,最终形成一个单词(Token)。需要注意数字和字符的组合、减号、小数点等的判断。
def parse_read_token(self): c = self.get_char() token_str = "" token_type = TokenType.L_EOF while c is not None: if c in TokenType.SkipWords: c = self.get_char() continue elif c.isdigit(): # .... elif c.isalpha() or c == '_': elif c == '.': # .... elif c == '\"' or c == "\'": # 字符串 elif c == '[': # 区分[ 和 [[ elif c == '{': # .... elif c == '(': # .... elif c == ']': # .... elif c == '}': # .... elif c == ')': # .... elif c in TokenType.Operators: # .... else: # error c = self.get_char() return Token(token_type, token_str)
3)循环读取全部的Token直到文件字符数据流结尾。
def parse(self): while True: token = self.parse_read_token() if token.tokenType == TokenType.L_ERROR: return False elif token.tokenType == TokenType.L_EOF: break elif token.tokenType != TokenType.L_COMMENT: self.mTokens.append(token) return True
三、总结
通过上面的几步就可以完成对Lua文件中的字符流进行分析,然后组成Token流。Token流将会是语法分析的输入内容。以上就是Lua词法分析的内容,写完分析程序后还需要多调试,使用不同风格编写的Lua代码文件进行测试。
欢迎微信搜索"游戏测试开发"关注一起沟通交流。