【Lua篇】静态代码扫描分析(三)语法分析
一、语法分析
通过将词法分析获取的Token流按照目标语言的语法进行解析的过程,例如解析函数声明、函数调用、变量声明、各种语句等。
二、Lua语法分析
在写语法分析程序前,先需要了解Lua的语句和语法,然后进行逐个解析。
下面简单列举一下Lua的语句:
1. 函数定义
-- 普通的函数声明 function demo1() -- <函数体> end -- 类方法 function t.demo2(self) -- <函数体> end -- 方法调用中的匿名函数(其实还有很多) some_method_call(arg1, function() <callback> end)
2. 函数调用
-- 普通的函数调用 print("Hello Lua") -- 模块方法 math.random(1,2) -- 类方法 obj:set_id(xx)
3. 赋值语句
-- 带local局部变量声明赋值 local a = 1 -- 多变量 local a,b,c = 2,3 -- 全局的变量 g_a = 3 -- 赋值可以是函数、函数调用、表等 g_c,g_b = {}, function() end
4. 条件分支
-- if条件分支 if a > 1 then elseif a > 2 then else end
5. for循环
-- for循环 for i=1,10,2 do end
6. for迭代器
-- 迭代包含in pairs 和 in ipairs for k,v in pairs(tb) do end
7. while循环
-- while循环,条件可以很复杂 while a >1 and b > 1 do end
8. repeat until 循环
repeat until a > 1
上面仅仅简单了进行了举例,实际上项目中的写法是千奇百怪的,因此需要确保包含所有的语法规则。在进行语法解析的时候,首先进行代码块的解析,可以把一个文件看作整个代码块,里面包含各种的语句。然后其实是逐语句解析,先取出一个Token,判断这个Token的类型,然后决定更细规则的解析,就像下面代码列举的过程一样。
1. 语法解析的入口,调用block解析。
def parse(self): self._TokenNum = self.mTokens block = self.on_block_parse() return block
2. 对block解析的时候,实际是循环调用逐语句解析,直到匹配到语句块结束标记。
def on_block_parse(self): token = self.get_token() statements = [] while token is not None: # until,else,elseif,end if self.is_end_token(token): self.put_token() break # 语句解析 statement = self.on_statement_parse(token) if not statement: break statements.append(statement) token = self.get_token() return Block(statements)
3. 逐语句解析就是获取Token的类型,并调用对应类型的解析方法。
def on_statement_parse(self, token): # 函数 if token.tokenType == T.FUNCTION: return self.on_function_parse(token) # for .. in .. do .. end elif token.tokenType == T.FOR: return self.on_for_parse(token) # while .. do .. end elif token.tokenType == T.WHILE: return self.on_while_parse(token) # repeat ... until xx elif token.tokenType == T.REPEAT: return self.on_repeat_parse(token) # if .. elseif ... else .. end elif token.tokenType == T.IF: return self.on_if_parse(token) # do ... end elif token.tokenType == T.DO: return self.on_do_parse(token) # local xx elif token.tokenType == T.LOCAL: return self.on_local_parse(token) # return xxx elif token.tokenType == T.RETURN: return self.on_return_parse(token) else: return self.on_expression_parse(token)
4. 列举一下while循环的解析,其中会调用表达式解析while的条件,调用block解析while的语句体,然后检查是否有end。基本上其他的语句也是按照这样的方式进行分析与解析。
def on_while_parse(self, token): """ while 循环 """ # while <condition> do exp = self.on_expression_parse(self.get_token()) if not exp: self.print_syntax_error(token) return None next_token = self.get_token() if next_token.text != 'do': self.print_syntax_error(next_token) return body = self.on_block_parse() next_token = self.get_token() if next_token.text != 'end': self.print_syntax_error(next_token) return None while_statement = LNodeWhile(token.lineno, exp, body) return while_statement
三、总结
通过上面的简单介绍,不知可能上手写一写呢?将所有的语句都解析完成后,接下来就是进行静态代码扫描了。如果是使用C或者C++写的话,完全可以从Lua的源码中提取上面的词法和语法解析内容,而直接进行代码规则扫描检查的编写。
欢迎微信搜索"游戏测试开发"关注一起沟通交流。