ANTLR快餐教程(1) - 有好多现成例子啊

简介: 前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。 那么,前端我们如何处理呢?我们选择ANTLR。

前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。
那么,前端我们如何处理呢?我们选择ANTLR。

例子超丰富的ANTLR

ANTLR是用Java写的词法和语法分析工具。它比lex/flex/yacc/bison是更现代的工具。
最方便的一点是,ANTLR已经替我们写好了常用语言的语法规则,我们已经拥有了常见语言的分析器,可以在其基础上直接做我们想做的事情。网址在[https://github.com/antlr/grammars-v4/]

我们看一些例子吧。曾经火遍大江南北的谭浩强老师的《BASIC语言》还有人记得吗?DOS时代,GW-BASIC和QBasic是系统默认自带的语言,如同Unix上的cc编译器一样。

10 FOR I = 1 TO 10 STEP 1
20 PRINT I
30 NEXT I
40 END

我们来看一下ANTLR中对BASIC语言FOR循环的语法:

// for stmt 2 puts the for, the statment, and the next on 3 lines.  It needs "nextstmt"
forstmt2
   : FOR vardecl EQ expression TO expression (STEP expression)?
   ;

nextstmt
   : NEXT (vardecl (',' vardecl)*)?
   ;

完整的语法在:https://github.com/antlr/grammars-v4/blob/master/basic/jvmBasic.g4

还有更简单的么?有啊,汇编语言:https://github.com/antlr/grammars-v4/blob/master/masm/MASM.g4

言归正题,我们来看第一种大型的语言,C语言2011版的:https://github.com/antlr/grammars-v4/blob/master/c/C.g4

看个类型的吧,C11的还真不少:


typeSpecifier
    :   ('void'
    |   'char'
    |   'short'
    |   'int'
    |   'long'
    |   'float'
    |   'double'
    |   'signed'
    |   'unsigned'
    |   '_Bool'
    |   '_Complex'
    |   '__m128'
    |   '__m128d'
    |   '__m128i')
    |   '__extension__' '(' ('__m128' | '__m128d' | '__m128i') ')'
    |   atomicTypeSpecifier
    |   structOrUnionSpecifier
    |   enumSpecifier
    |   typedefName
    |   '__typeof__' '(' constantExpression ')' // GCC extension
    ;

我们通过语法规则,大致可以估算一下语言的复杂度:

语言 语法行数 地址
C11 926 https://github.com/antlr/grammars-v4/blob/master/c/C.g4
C++14 2353 https://github.com/antlr/grammars-v4/blob/master/cpp/CPP14.g4
Go 1170 https://github.com/antlr/grammars-v4/blob/master/golang/Golang.g4
Java7 1017 https://github.com/antlr/grammars-v4/blob/master/java/Java.g4
Java8 1780 https://github.com/antlr/grammars-v4/blob/master/java8/Java8.g4
Lua 336 https://github.com/antlr/grammars-v4/blob/master/lua/Lua.g4
Pascal 972 https://github.com/antlr/grammars-v4/blob/master/pascal/pascal.g4
Python3 1558 https://github.com/antlr/grammars-v4/blob/master/python3/Python3.g4
Swift 1163 https://github.com/antlr/grammars-v4/blob/master/swift/Swift.g4
ECMA Script 5 1504 https://github.com/antlr/grammars-v4/blob/master/ecmascript/ECMAScript.g4
Erlang 391 https://github.com/antlr/grammars-v4/blob/master/erlang/Erlang.g4
Fortran 77 1363 https://github.com/antlr/grammars-v4/blob/master/fortran77/fortran77.g4
Scala 704 https://github.com/antlr/grammars-v4/blob/master/scala/Scala.g4
SQLite 905 https://github.com/antlr/grammars-v4/blob/master/sqlite/SQLite.g4
Clojure 262 https://github.com/antlr/grammars-v4/blob/master/clojure/Clojure.g4

从词法复杂度上看:

  • C,Java7,Swift,Go这几门语法的复杂度是比较适中的
  • C++和Java 8确实是比较复杂的,比起它们的前辈C和Java 7都变复杂了不少
  • JavaScript和Python3已经比较复杂了
  • Clojure,Lua和Erlang是惊喜,规模小,表现力强

装上玩玩吧

既然ANTLR有这么丰富的例子供我们参考,我们就装一个玩玩吧。
在macOS上,通过Homebrew就可以安装。

在Linux上,通过下面的步骤来安装:

wget http://www.antlr.org/download/antlr-4.6-complete.jar
export CLASSPATH=".:/path/to/antlr-4.6-complete.jar:$CLASSPATH"
alias antlr4='java -jar /path/to/antlr-4.6-complete.jar'
alias grun='java org.antlr.v4.gui.TestRig'

照抄个Hello,World的例子试一下吧:

grammar Hello ;
r : 'hello' ID ;
ID: [a-z]+ ;
WS : [ \t\r\n]+ -> skip ;

都是正则表达式,很容易理解,ID是小写字母组成的,WS是空格制表符回车换行符,空白符过滤掉。

输入antlr4 Hello.g4,就生成了好几个.java文件,调用javac编译一下。成功!

antlr4 Hello.g4
javac *.java

生成的文件,我们快速浏览一下:
第一个,HelloListener.java:

// Generated from Hello.g4 by ANTLR 4.6
import org.antlr.v4.runtime.tree.ParseTreeListener;

/**
  * This interface defines a complete listener for a parse tree produced by
  * {@link HelloParser}.
  */
 public interface HelloListener extends ParseTreeListener {
     /**
      * Enter a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void enterR(HelloParser.RContext ctx);
     /**
      * Exit a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void exitR(HelloParser.RContext ctx);
 }

R是我们刚才定义的语法规则,在进入和退出时,这个接口是提供回调的接口。

Hello.tokens:

T__0=1
ID=2
WS=3
'hello'=1

HelloParser.java是解析器。

目录
相关文章
|
XML JSON 自然语言处理
《ANTLR 4权威指南 》一导读
ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。
10704 2
|
机器学习/深度学习 人工智能
一键生成PPT的AI工具介绍
一键生成PPT的AI工具介绍
1633 0
|
Java 应用服务中间件 API
SpringBoot项目 Tomcat部署war程序时启动成功但是访问404异常处理
SpringBoot项目 Tomcat部署war程序时启动成功但是访问404异常处理
1585 0
idea实现protobuf的.proto文件编译成.java文件教程
1..proto文件语法高亮显示1.1 打开idea的插件列表1.2 下载protobuf辅助插件1.3 安装好后重启idea 在项目中新增配置生成环境 1.6.1
13932 0
|
9月前
|
SQL 关系型数据库 MySQL
Mysql-常用函数及其用法总结
以上列举了MySQL中一些常用的函数及其用法。这些函数在日常的数据库操作中非常实用,能够简化数据查询和处理过程,提高开发效率。掌握这些函数的使用方法,可以更高效地处理和分析数据。
239 19
|
9月前
|
存储 缓存 NoSQL
Redis 面试题
Redis 基础面试题
ly~
|
12月前
|
存储 安全 大数据
数据库的发展趋势是什么?
数据库发展趋势涵盖云化、智能化、分布式及多模型融合等多个方面。云数据库和DBaaS模式使企业能快速调整资源,降低成本;AI和机器学习技术推动智能运维、查询优化等功能;分布式架构和并行计算则提升了数据处理能力和速度。此外,多模型数据库满足了多样化的数据处理需求,而数据安全技术和隐私保护也在不断加强。数据库与大数据、AI、区块链等新兴技术的融合将进一步提升其功能与安全性。
ly~
889 1
|
12月前
|
存储 算法
动态规划算法学习一:DP的重要知识点、矩阵连乘算法
这篇文章是关于动态规划算法中矩阵连乘问题的详解,包括问题描述、最优子结构、重叠子问题、递归方法、备忘录方法和动态规划算法设计的步骤。
747 0
VSCode将某个字符替换为换行符并换行显示
VSCode将某个字符替换为换行符并换行显示
1229 1
VSCode将某个字符替换为换行符并换行显示
|
关系型数据库 MySQL 分布式数据库
PolarDB MySQL版 GDN:实现真正的全球异地多活
【7月更文第31天】随着全球化业务的发展,企业需要确保其数据库能够在不同地理位置之间提供一致的服务质量和高可用性。阿里云PolarDB MySQL版的全球数据库网络(GDN)功能为此类需求提供了一个理想的解决方案。本文将深入探讨PolarDB MySQL版在GDN下的表现,并通过实际场景评测其异地多活能力。
484 3