antlr4 简单实用入门——(一)

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: antlr4 简单实用入门——(一)

Antlr4 简介

简介

Antlr4 是一款强大的语法生成器工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。基本上是当前 Java 语言中使用最为广泛的语法生成器工具。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;Hibernate对象-关系映射框架(ORM)使用ANTLR来处理HQL语言。参考2

Antlr4 提供了大量的官方 grammar 示例,包含了各种常见语言,非常全面,提供了非常全面的学习教材。

本文简单介绍一个示例,实现一个简单的计算器功能,这个例子在很多资料中都作为第一个示例,可以算是 Antlr4 的 HelloWorld。

基本概念

语法分析器(parser)是用来识别语言的程序,本身包含两个部分:词法分析器(lexer)和语法分析器(parser)。词法分析阶段主要解决的关键词以及各种标识符,例如 INT、ID 等,语法分析主要是基于词法分析的结果,构造一颗语法分析树。大致的流程如下图参考2所示。

语法解析基本流程

因此,为了让词法分析和语法分析能够正常工作,在使用 Antlr4 的时候,需要定义语法(grammar),这部分就是 Antlr 元语言。

语法解析基本流程

元语言

首先,要了解 antlr4 本身的定义 grammar 的语法,相对比较简单。我们以计算器的例子为例,简单讲解其中的概念。

// file: Calculator.g4
grammar Calculator;
line : expr EOF ;
expr : '(' expr ')'             # parenExpr
     | expr ('*'|'/') expr      # multOrDiv
     | expr ('+'|'-') expr      # addOrSubstract
     | FLOAT                    # float
     ;
WS : [ \t\n\r]+ -> skip;
FLOAT : DIGIT+ '.' DIGIT* EXPONET?
      | '.' DIGIT+ EXPONET?
      | DIGIT+ EXPONET?
      ;
fragment DIGIT : '0'..'9' ;
fragment EXPONET : ('e'|'E') ('+'|'-')? DIGIT+ ;

第一行,定义了 grammar 的名字,名字需要与文件名对应。

接下来的 line 和 expr 就是定义的语法,会使用到下方定义的词法,注意 # 后面的名字,是可以在后续访问和处理的时候使用的。一个语法有多种规则的时候可以使用 | 来进行配置。

在 expr 这行,我们注意到四则运算分为了两个非常相似的语句,这样做的原因是为了实现优先级,乘除是优先级高于加减的。

WS 定义了空白字符,后面的 skip 是一个特殊的标记,标记空白字符会被忽略。

FLOAT 是定义的浮点数,包含了整数,与编程语言中的浮点数略有不同,更类似 Number 的定义。

最后的 fragment 定义了两个在词法定义中使用到的符号。

在语法定义的文件中,大部分的地方使用了正则表达式。

生成文件

配置 antlr4 工具,先从官网下载 Antlr4 的 jar 包,点击下载地址进行下载。

alias antlr4="java -jar /path/to/antlr-4.5-complete.jar"

通过命令行工具可以生成 lexer、parser、visitor、listener 等文件。

visitor 是默认不生成的,需要带上参数 -visitor。

$ antlr4 -visitor Calculator.g4
# 生成文件如下:
Calculator.interp
CalculatorBaseListener.java
CalculatorLexer.interp
CalculatorLexer.tokens
CalculatorParser.java
Calculator.tokens
CalculatorBaseVisitor.java
CalculatorLexer.java
CalculatorListener.java
CalculatorVisitor.java

使用 Visitor

Visitor 的使用是最为简单方便的,继承 CalculatorBaseVisitor 类即可,内部的方法与 g4 文件定义相对应,对照看即可理解。

public class MyCalculatorVisitor extends CalculatorBaseVisitor<Object> {
    @Override
    public Object visitParenExpr(CalculatorParser.ParenExprContext ctx) {
        return visit(ctx.expr());
    }
    @Override
    public Object visitMultOrDiv(CalculatorParser.MultOrDivContext ctx) {
        Object obj0 = ctx.expr(0).accept(this);
        Object obj1 = ctx.expr(1).accept(this);
        if ("*".equals(ctx.getChild(1).getText())) {
            return (Float) obj0 * (Float) obj1;
        } else if ("/".equals(ctx.getChild(1).getText())) {
            return (Float) obj0 / (Float) obj1;
        }
        return 0f;
    }
    @Override
    public Object visitAddOrSubstract(CalculatorParser.AddOrSubstractContext ctx) {
        Object obj0 = ctx.expr(0).accept(this);
        Object obj1 = ctx.expr(1).accept(this);
        if ("+".equals(ctx.getChild(1).getText())) {
            return (Float) obj0 + (Float) obj1;
        } else if ("-".equals(ctx.getChild(1).getText())) {
            return (Float) obj0 - (Float) obj1;
        }
        return 0f;
    }
    @Override
    public Object visitFloat(CalculatorParser.FloatContext ctx) {
        return Float.parseFloat(ctx.getText());
    }
}

实现了 visitor 之后,就可以完成一个简单的计算器了。

import org.antlr.v4.runtime.ANTLRInputStream;
import org.antlr.v4.runtime.CommonTokenStream;
public class Driver {
    public static void main(String[] args) {
        String query = "3.1 * (6.3 - 4.51) + 5 * 4";
        CalculatorLexer lexer = new CalculatorLexer(new ANTLRInputStream(query));
        CalculatorParser parser = new CalculatorParser(new CommonTokenStream(lexer));
        CalculatorVisitor visitor = new MyCalculatorVisitor();
        System.out.println(visitor.visit(parser.expr()));  // 25.549
    }
}

使用 Maven

Antlr4 提供了 Maven Plugin,可以通过配置来进行编译。

语法文件 g4 放置在 src/main/antlr4 目录下即可,配置依赖的 antlr4 和 plugin 即可。

生成 visitor 在 plugin 配置 visitor 参数为 true 即可。

注意:antlr4 的库版本要与 plugin 版本对应,antlr4 对生成文件用的版本与库本身的版本会进行对照,不匹配会报错。

...
<properties>
    <antlr4.version>4.7.2</antlr4.version>
</properties>
<dependencies>
    <dependency>
        <groupId>org.antlr</groupId>
        <artifactId>antlr4</artifactId>
        <version>${antlr4.version}</version>
    </dependency>
</dependencies>
...
<build>
    <plugins>
        <plugin>
            <groupId>org.antlr</groupId>
            <artifactId>antlr4-maven-plugin</artifactId>
            <version>${antlr4.version}</version>
            <configuration>
                <visitor>true</visitor>
            </configuration>
            <executions>
                <execution>
                    <id>antlr</id>
                    <goals>
                        <goal>antlr4</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>
...

打包

总结

本文较为简单地说了一个计算器的例子,只介绍了 visitor 的大致使用方法,最后还介绍了 maven plugin 的使用方法。

笔者还在学习 antlr4 以及编译原理,想用好语法生成器工具,还是需要对编译原理有一定的理解。

编辑原理:

(11条消息) Java-底层原理-编译原理

代码参考:

zhugezifang/antlr4-helloworld-demo (github.com)

参考:Antlr4 简介 - 分布式编程 (zthinker.com)

(1条消息) 基于 ANTLR 自己实现一个 SQL 解析器

GitHub - webgjc/sql-parser: 基于antlr4的sql解析,实现格式化,元数据,血源等自定义解析,包括mysql,hive,spark,presto


相关文章
|
XML JSON 自然语言处理
《ANTLR 4权威指南 》一导读
ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。
10501 2
|
SQL 自然语言处理 数据可视化
ANTLR 4|认识ANATLR
用ANTLR实现数据加载器、语言解释器、语言翻译器。基于自动生成的语法分析树解析文件。简单来说就是,ANTLR根据用户自定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为语法分析树(可视化)。ANTLR 是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。
ANTLR 4|认识ANATLR