《编译与反编译技术实战 》一3.3 词法分析器的LEX实现

简介: 由于程序设计语言中的单词基本上都可用一组正规式来描述,因此,人们希望构造一个自动生成系统:对于一个给定的高级语言,只要给出用来描述其各类单词词法结构的一组正则表达式,以及识别各类单词时词法分析程序应采取的语义动作,该系统便可自动产生此语言的词法分析程序。

本节书摘来自华章出版社《编译与反编译技术实战 》一书中的第3章,第3.3节,庞建民 主编 ,刘晓楠 陶红伟 岳 峰 戴超 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 词法分析器的LEX实现

由于程序设计语言中的单词基本上都可用一组正规式来描述,因此,人们希望构造一个自动生成系统:对于一个给定的高级语言,只要给出用来描述其各类单词词法结构的一组正则表达式,以及识别各类单词时词法分析程序应采取的语义动作,该系统便可自动产生此语言的词法分析程序。1975年美国贝尔实验室的M. Lesk和Schmidt基于正规式与有限自动机的理论研究,用C语言研制了一个词法分析程序的自动生成工具LEX。对任何高级程序语言,用户只需用正规式描述该语言的各个词法类(这一描述称为LEX的源程序),LEX就可以自动生成该语言的词法分析程序。

3.3.1 LEX源文件结构

LEX 的输入是用LEX源语言编写的程序,它是扩展名为.l的文件。LEX源程序经LEX 系统处理后输出一个C 程序文件,此文件含有两部分内容: 一个是依据正规式所构建的状态转移表; 另一个是用来驱动该状态转移表的总控程序yylex ()。该文件再经过C编译器的编译就产生一个实际可以运行的词法分析程序,其使用方法如图3-4所示。
一般而言,一个LEX 源程序由“% %”分隔的三个部分组成,其书写格式为:
定义部分

% %
识别规则部分
% %

辅助函数部分
其中,定义部分和辅助函数部分是任选的,识别规则部分则是必备的。如果辅助函数部分缺省, 则第二个分隔号“% %”可以省略;但由于第一个分隔号% %用来指示识别规则部分的开始,故即使没有定义部分, 也不能将其省略。下面将对这三部分的内容及其书写格式作一概括性介绍。
1.定义部分
定义部分对规则部分要引用的文件和变量进行说明,通常可包含头文件表、常数定义、全局变量定义、外部变量定义以及正规式定义等。正规式定义用来定义在规则部分引用的正规式,类似于C语言中的宏定义,所以也称为宏定义。每一个宏定义由分隔符(适当个数的空格或制表字符) 连接的宏名字和宏内容组成:

D1    r1
D2    r2
…    …
Dn    rn

其中,Di 是要定义的一组互不相同的宏名字,它是以字母或者下划线“_”开始,由字母、数字和下划线“_”组成的字符串,并且大小写敏感;每个ri是以后用来替换宏名字Di的宏内容,其都是Σ∪{D1,D2,...,Di-1}上的正规式;Σ 是相应程序设计语言的基本字符集。设置宏定义的目的在于给一些较为复杂的正规式命名,以便以后在需要出现这些正规式的地方只需写上相应的宏名字。例如:

digit [0-9]
letter [a-zA-Z]

其中,digit是匹配单个数字的正规式;letter 是匹配单个字母的正规式。需要注意的是,在以后的定义部分和规则部分,凡对已定义宏名字的引用都需用花括号将它们括起来。例如:

{letter}({letter}|{digit})*

LEX扫描源文件时,将{letter}替换为letter 所定义的正规式并加上括号,将{digit}替换为digit所定义的正规式并加上括号,所以,上式等价于
([a-zA-Z])( ([a-zA-Z])|([0-9]))*
它将匹配以字母开始并由字母和数字组成的字符串。
除宏定义外,定义部分的其余代码需用符号“%{”和“%}”括起来。LEX将“%{”和“% }”之间的内容直接复制到生成的C 文件lexyy.c中。在LEX 源程序中,起标识作用的符号“% %”“%{”以及“%}”都必须处于所在行的最左字符位置。另外, 在其中也可随意添加C 语言形式的注释。如

%{
#include〈math.h〉
#include〈string.h〉
int num_chars = 0, num_lines = 0;
%}
2.识别规则部分
识别规则部分是具有如下形式的语句序列:
P1 { A1 }
P2 { A2 }
    ...
Pn { An }

其中,每个Pi都是定义在Σ∪{D1 ,D2 ,… ,Dn }上的正规式( Di 是定义部分所定义的宏名字),用来描述一种单词模式;Ai是一段C语言源代码,用来指出当从输入字符串中识别出词型为Pi的单词时词法分析器应执行的操作。每个Pi都必须顶行书写,并用分隔符(若干个空格或tab字符)与其后的代码段Ai分开。每个代码段Ai可引用已定义的符号常量、全局变量和外部变量,并能调用辅助函数部分所定义的函数,必要时也可在Ai中定义自己的局部变量。Ai一般不必用花括号括起来,但若Ai多于一行或者需要在其中定义局部变量,则应使用花括号并且左括号“{”一定要与相应的Pi在同一行,以便确定这些局部变量的作用域。
3.辅助函数部分
在识别规则部分中所调用的函数若不是库函数,则需要给出这些函数的定义。这些函数在辅助函数部分给出,由用户用C语言编写,它们由LEX系统直接复制到输出的C程序文件之中。
表3-2中列出了LEX中常用的一些变量和函数,在与正规式匹配的动作或辅助过程中都可以使用。


1faecd71dfb3d55e83bba2f10a557dce15536da8



例3.1 下面给出了一个LEX源文件,其功能是统计文本文件中的字符数和行数。该程序首先定义了num_chars 和num_lines 两个计数器,分别记录文本文件的字符数和行数。在LEX 源文件中定义两个正规式“n”和“.”,分别用来匹配换行符和任意字符,并且在识别这两个正规式后其相应的计数器累加1,从而完成对文件的字符数和行数的统计。
%{
/* 该LEX程序的功能是统计文本文件中的字符数和行数,并输出结果*/
#include <stdio.h>
int num_chars = 0, num_lines= 0; /* C 语言全局变量,定义两个计数器并置初值为0*/
%}
%%
\n   {++num_chars; ++num_lines;} /* " \n" 匹配换行符 */
.    {++num_chars;} /* "."匹配除换行符以外的任意字符 */
%%
main() /* 主函数 */
{
yylex();
printf("本文件的行数为:%d,字符数为:%d\n", num_lines, num_chars);
return 0;
}
int yywrap() /* 文件结束处理函数,yylex 在读到文件结束标记EOF时,调用该函数,用户必须提供该函数,否则在编译链接时会出错 */
{
return 1; /* 返回1 表示文件扫描结束,不必再扫描别的文件 */
}

3.3.2 LEX系统中的正规式

LEX 源程序中在宏定义及识别规则部分都涉及许多正规式。这些正规式除应遵循正规式基本定义的规定外,为了便于用户灵活、紧凑地构造复杂的正规式,LEX还增添了若干个运算符和新的构造规则,下面将结合这些新增的内容对LEX系统中的正规式进行扼要说明。
LEX系统中的正规式由通常的文字字符(下面称为正文字符)和元字符组成。元字符一般用作运算符或控制符,常用的元字符有*、 +、 ?、 | 、{ }、 [ ]、() 、. ^ 、$ 、” 、、 -、 / 、
<、 >。利用正文字符和元字符组成正规式的规则及其匹配输入串的规则分述如下。
(1)单个正文字符
单个正文字符c是正规式,用于匹配与其相同的单个正文字符c。
如果上述元字符需要以正文字符的形式出现于正规式中,则需使用双引号(")或反斜线()作为转义字符将其变为正文字符,如" +"(或 +)和"-"(或-)在正规式中分别表示加号和减号。此外,C语言中的一些转义字符序列也可出现在正规式中,如 b、 f 、 n 、
r、 s和 t 分别表示退格、换页、换行、回车、空格和制表。
(2)字符类
字符类是正规式,用于匹配该字符类所确定的字符集合中的任一字符。
字符类有两种表示形式。一种是在方括号([])内列出字符类中的全部字符(字符之间不需要用逗号分隔),如[abc123]将匹配小写字母a、b、c、1、2、3 中的任一字符。另一种是补集表示法,其在方括号([])内列出所有不在字符类中的字符,书写格式为“1”, 它匹配除“^”之后所列字符之外的所有字符,如2 将匹配除小写字母a、b、c、1、2、3之外的任何字符。此外,对于连续的字符可以用 “ - ”进行缩写,如[ 0 - 9a - zA - Z]匹配任一字母、数字字符,3 匹配除数字字符之外的任何字符。
需要注意的是, 除^、 和-外,其余元字符在方括号内失去其特殊含义。如果使一个字符类含有这3个字符中的某个字符,只需要将其放在方括号内首字符或末字符的位置上,如[ - + .0 - 9 ] 和[ + .0 - 9 - ]均匹配正号、负号、小数点和十进制数字中的任何字符。
(3)“连接”与“或”
设r1和r2是正规式,则r1r2(表示r1 和r2 的连接)和r1 | r2(表示r1或r2)也都是正规式。
(4)重复
设r为正规式,则“r *”表示r 可重复零次或任意多次,“r +”表示r可重复一次或任意多次,“r ?”表示r可有可无。
(5)通配符
“·”为通配符, 用来匹配除换行之外的任何字符。例如,B·C 不但可以匹配BNC、 BDC 及BVC 等, 而且还可匹配RBYCA 中的BYC。
(6)行首字符串或行末字符串
以元字符上箭头“^”开头的字符串用于匹配行首字符串,以元符号“$”为末尾的字符串用于匹配行末字符串。例如,^BEGIN表示仅当字符串BEGIN 出现在某一行的开头才能获得匹配;END$表示仅当字符串END出现在一行的结尾才能获得匹配。这里所说的一行的开头, 是指整个输入字符流的开始,或者紧跟在一个换行字符之后的位置,一行的结尾则指紧靠换行字符之左的位置。
(7)超前搜索
“/”为超前搜索符。设r1 和r2 是正规式,则r1/r2也都是正规式,其r1是否与一个字符串相匹配取决于紧跟其后的超前搜索部分是否与r2相匹配。也就是说,r2仅作为r1获得匹配的条件,而非所要识别单词词型的一部分。例如, 为了识别Fortran源程序中的关键字DO,需采用超前搜索技术, 相应的词型可写成
DO/ ({letter}|{digit})= ({letter}|{digit})
表示词法分析程序在输入缓冲区中超前扫描一串字母或数字,接着扫描等号以及后面的一串字母或者数字,最后扫描到逗号,才能确认关键字DO得到识别。
3.3.3 LEX 的使用方式
LEX 通常有两种使用方式:一种是将LEX作为一个单独的工具,用以生成所需的识别程序,这些识别程序多被用在诸如编辑器设计、命令行解释、模式识别、信息检索以及开关系统等一些非开发编译器的应用领域中;另一种是将LEX和语法分析器自动生成工具(如YACC)结合起来使用,以生成一个编译程序的扫描器和语法分析器。
LEX 和YACC 的最初版本都是作为UNIX 系统下的工具软件来运行的。假定已有命名为scanner.l 的LEX 源文件,则可在UNIX 系统下通过命令lex scanner.1调出LEX 对其进行处理,处理结果是输出名字为lex.yy.c 的C语言文件。再用命令cc lex.yy.c-11调用C 编译器对其进行编译,编译所得到的文件a.out 便是可执行的词法分析程序,其中选择项“-11”表示需调用LEX的库。如果用户需对所得目标代码文件命名,如将其命名为Cifafenxi,则可用下面的命令进行编译:
cc lex.yy.c-11-o Cifafenxi
LEX和YACC已经成功移植到Windows系统下,Parser Generator便是其中常用的工具之一,该工具是Windows 平台下的LEX 和YACC集成环境,其利用LEX 和YACC能够生成Visual C++、Borland C++等C++代码以及相关Java代码。Parser Generator 非常适合于与Visual C++(简称VC++)集成,下面对该工具如何生成代码并使用Visual C++进行编译做一简要介绍。
在安装了Parser Generator 后,在VC++中进行以下两项设置,即可使VC++编译和链接由Parser Generator 产生的文件。
1.目录设置
为了在VC++中可以找到LEX 和YACC 的头文件lex.h 和yacc.h,以及LEX 和YACC 的库文件,需要对VC++进行相关的目录设置。

1)选择Tools菜单中的Options 命令,打开Options 对话框。
2)选择Directories 选项卡。
3)在Show Directories for 下拉列表框中选择Include Files,在Directories 框中单击最后的空目录,并填入C:\PARGEN\INCLUDE(其中C:\PARGEN 是Parser Generator 的安装路径,下同)。
4)在Show Directories for 下拉列表框中选择Library Files,在Directories 框中单击最后的空目录,并填入C:\PARGEN\LIB\MSVC32。
5)在Show Directories for 下拉列表框中选择Source Files,在Directories 框中单击最后的空目录,并填入C:\PARGEN\ SOURCE。
6)单击OK 按钮,Options 对话框设置完毕。

2.项目设置

对每个VC++项目,都需进行以下设置,以使VC++可以从特定的库中接收LEX和YACC所需要的函数和变量。
1)选择Project菜单中的Settings 命令,打开Project Settings 对话框。
2)在Settings For 下拉列表框中选择Win32 Debug。
3)选择C/C++选项卡,在Category下拉列表框中选择General。在Preprocessor Definitions框中,在当前文本的最后输入“,YYDEBUG”。
4)选择Link 选项卡,在Category 下拉列表框中选择General。在Object/Library Modules框中,在当前文本的最后输入“yl.lib”。
5)单击OK 按钮,Project Settings 对话框设置完毕。
3.3.4 LEX 源文件示例——C语言词法分析器

在本小节,我们给出一个针对C 语言单词识别的LEX 源程序文件c.lex, 以供参考。该源程序所涉及的各种单词符号和种别编码参见表3-1,在该源程序中针对常数类单词只考虑了十进制整型常数。该文件已在Parser Generator 环境下编译调试通过。为便于阅读, 特作以下说明:
1)程序前面的行号是为了便于下面的说明而给出的,真正的LEX 程序不能书写行号。
2)第1行到第84行介于“%{”和“%}”之间的内容将直接插入由LEX产生的C程序中,第5行至第83行列出了C 语言各类单词的名字及其相应的种别编码定义。
3)第85行到第89行为正规式的宏定义,white代表制表、换行及空格三个字符中的任一字符,把它们均视为“空白字符”。digit代表0到9中的任一数字,letter代表任一大写或者小写字母,number代表十进制整数,id代表C语言中的标识符。
4)第91行到第174行之间为识别规则部分。第91行表示在遇到空白符时,不需要进行任何语义处理,用一个空语句表示,这样就可以将输入字符串的全部空白符过滤掉。第92行和第93行对注释进行处理。第94 行到第173行表示在识别出标识符、十进制整型常数、关键字和运算符时输出其相应的种别编码。第174 行中的“.”表示不能与第91行到第173行正规式匹配的其他字符。
5)第176行到第180行为主函数,打开输入输出文件。其中,yylex()是词法分析程序的入口点,每次调用yylex(),就可以从被编译的源程序中得到一个单词。如果正规式的相关动作中无return语句,则yylex()并不返回值,如此例中第94行到第174行,相关的动作只是向文件result.txt中输出某些提示信息。
下面为C 语言扫描器的LEX 源文件c.lex。

1.    %{
2.    #include <stdio.h>
3.    #include <stdlib.h>
4.    #define VOID 1 //void
5.    #define CHAR 2 //char
6.    #define INT 3 //int
7.    #define FLOAT 4 //float
8.    #define DOUBLE 5 //double
9.    #define SHORT 6 //short
10.    #define LONG 7 //long
11.    #define SINGED 8 //singed
12.    #define UNSINGED 9 //unsigned
13.    #define STRUCT 10 //struct 
14.    #define UNION 11 //union
15.    #define ENUM 12 //enum
16.    #define TYPEDF 13 //typedef
17.    #define SIZEOF 14 //sizeof 
18.    #define AUTO 15 //auto
19.    #define STATIC 16 //static
20.    #define REGISTER 17 //register
21.    #define EXTERN 18 //extern
22.    #define CONST 19 //const
23.    #define VOLATILE 20 // volatile
24.    #define RETURN 21 // return 
25.    #define CONTINUE 22 //continue
26.    #define BREAK 23 //break 
27.    #define GOTO 24 //goto
28.    #define IF 25 //if  
29.    #define ELSE 26 //else
30.    #define SWITCH 27 // switch 
31.    #define CASE 28 // case 
32.    #define DEFAULT 29 // default
33.    #define FOR 30 // for 
34.    #define DO 31 // do
35.    #define WHILE 32 // while 
36.    #define SCANF 33 //scanf
37.    #define PRINTF 34 //printf
38.    #define LC 35 // {
39.    #define RC 36 // }
40.    #define LB 37 // [
41.    #define RB 38 // ] 
42.    #define LP 39 // ( 
43.    #define RP 40 // ) 
44.    #define DOT 41 //.
45.    #define STRUCTOP 42 // - >
46.    #define LOGRE 43 //~
47.    #define INPLUS 44 // + + 
48.    #define INMINUS 45 //  - - 
49.    #define LOCRE 46 //! 
50.    #define AND 47 // &
51.    #define STAR 48 // *
52.    #define DIVOP 49 // /
53.    #define COMOP 50 //%
54.    #define PLUS 51 //+ 
55.    #define MINUS 52 // -
56.    #define SHIFTR 53 //>>
57.    #define SHIFTL 54 //<<
58.    #define RELG 55 // > 
59.    #define RELGEQ 56 // >= 
60.    #define RELL 57 // < 
61.    #define RELLEQ 58 // <=
62.    #define EQUOP 59 //= = 
63.    #define UEQUOP 60 //! =
64.    #define XOR 61 // ^ 
65.    #define OR 62 // | 
66.    #define ANDAND 63  // &&
67.    #define OROR 64 // ||
68.    #define QUEST 65  // ?
69.    #define EQUAL 66 // = 
70.    #define ASSIGNDIV 67 // / =
71.    #define ASSIGNSTAR 68 // * =
72.    #define ASSIGNCOM 69 // % =
73.    #define ASSIGNPLUS 70 // + =
74.    #define ASSIGNMINUS 71 // - =
75.    #define ASSIGNAND 72 // & =
76.    #define ASSIGNXOR 73 // ^ =
77.    #define ASSIGNOR 74 // | =
78.    #define COMMA 75 // , 
79.    #define SHA 76 //# 
80.    #define SEMI 77 // ; 
81.    #define COLON 78 // : 
82.    #define ID 79 // 标识符
83.    #define NUMBER 80 //数字
84.    %}
85.    white [\t\n\ ]
86.    digit [0-9]
87.    letter [A-Za-z]
88.    id ({letter}|_)({letter}|{digit}|_)*
89.    number  [1-9]{digit}*|0
90.    %%
91.    {white}+ ;
92.    "/*"[^}\n]*"*/"   ;                 /* 删除注释 */
93.    "//"[^}\n]*   ;                     /* 删除注释 */
94.    {id} {fprintf(yyout, "(%d, %s) \n", ID ,yytext); }
95.    {number}  {fprintf(yyout, "(%d, %s) \n", NUMBER,yytext); }
96.    void {fprintf(yyout, "(%d, %s) \n", VOID, yytext,); }
97.    char {fprintf(yyout, "(%d, %s) \n", CHAR,yytext); }
98.    int {fprintf(yyout, "(%d, %s \n", INT,yytext); }
99.    float {fprintf(yyout, "(%d, %s) \n", FLOAT,yytext); }
100.    double {fprintf(yyout, "(%d, %s) \n", DOUBLE,yytext); }
101.    short {fprintf(yyout, "(%d, %s) \n", SHORT,yytext); }
102.    long {fprintf(yyout, "(%d, %s) \n", LONG,yytext); }
103.    singed {fprintf(yyout, "(%d, %s) \n", SINGED,yytext); }
104.    unsigned {fprintf(yyout, "(%d, %s) \n", UNSINGED,yytext); }
105.    struct {fprintf(yyout, "(%d, %s) \n", STRUCT,yytext); }
106.    union {fprintf(yyout, "(%d, %s) \n", UNION,yytext); }
107.    enum {fprintf(yyout, "(%d, %s) \n", ENUM,yytext); }
108.    typedef {fprintf(yyout, "(%d, %s) \n", TYPEDF,yytext); }
109.    sizeof  {fprintf(yyout, "(%d, %s) \n", SIZEOF,yytext); }
110.    auto {fprintf(yyout, "(%d, %s \n", AUTO,yytext); }
111.    static {fprintf(yyout, "(%d, %s) \n", STATIC,yytext); }
112.    register {fprintf(yyout, "(%d, %s) \n", REGISTER,yytext); }
113.    extern {fprintf(yyout, "(%d, %s) \n", EXTERN,yytext); }
114.    const {fprintf(yyout, "(%d, %s) \n", CONST,yytext); }
115.    volatile {fprintf(yyout, "(%d, %s) \n" VOLATILE,yytext,); }
116.    return  {fprintf(yyout, "(%d, %s) \n", RETURN,yytext); }
117.    continue {fprintf(yyout, "(%d, %s) \n", CONTINUE,yytext); }
118.    break  {fprintf(yyout, "(%d, %s) \n", BREAK,yytext); }
119.    goto {fprintf(yyout, "(%d, %s) \n", GOTO,yytext); }
120.    if  {fprintf(yyout, "(%d, %s) \n", IF,yytext); }
121.    else {fprintf(yyout, "(%d, %s) \n", ELSE,yytext); }
122.    switch {fprintf(yyout, "(%d, %s) \n", SWITCH,yytext); }
123.    case  {fprintf(yyout, "(%d, %s) \n", CASE,yytext); }
124.    default {fprintf(yyout, "(%d, %s) \n", DEFAULT,yytext); }
125.    for  {fprintf(yyout, "(%d, %s) \n", FOR,yytext); }
126.    do {fprintf(yyout, "(%d, %s) \n", DO,yytext); }
127.    while  {fprintf(yyout, "(%d, %s) \n", WHILE,yytext); }
128.    scanf {fprintf(yyout, "(%d, %s) \n", SCANF,yytext); }
129.    printf {fprintf(yyout, "(%d, %s) \n", PRINTF,yytext); }
130.    "{"  {fprintf(yyout, "(%d, %s) \n", LC,yytext); }
131.    "}"  {fprintf(yyout, "(%d, %s) \n", RC,yytext); }
132.    "["  {fprintf(yyout, "(%d, %s) \n", LB,yytext); }
133.    "]"  {fprintf(yyout, "(%d, %s) \n", RB,yytext); }
134.    "("  {fprintf(yyout, "(%d, %s) \n", LP,yytext); }
135.    ")"  {fprintf(yyout, "(%d, %s) \n", RP,yytext); }
136.    "."  {fprintf(yyout, "(%d, %s) \n", DOT,yytext); }
137.    "->"  {fprintf(yyout, "(%d, %s) \n", STRUCTOP,yytext); }
138.    "~"  {fprintf(yyout, "(%d, %s) \n", LOGRE,yytext); }
139.    "++"  {fprintf(yyout, "(%d, %s) \n", INPLUS,yytext); }
140.    "--"  {fprintf(yyout, "(%d, %s) \n", INMINUS,yytext); }
141.    "!"  {fprintf(yyout, "(%d, %s) \n", LOCRE,yytext); }
142.    "&"  {fprintf(yyout, "(%d, %s) \n", AND,yytext); }
143.    "*"  {fprintf(yyout, "(%d, %s) \n", STAR,yytext); }
144.    "/"  {fprintf(yyout, "(%d, %s) \n", DIVOP,yytext); }
145.    "%"  {fprintf(yyout, "(%d, %s) \n", COMOP,yytext); }
146.    "+"  {fprintf(yyout, "(%d, %s) \n", PLUS,yytext); }
147.    "-"  {fprintf(yyout, "(%d, %s) \n", MINUS,yytext); }
148.    ">>"  {fprintf(yyout, "(%d, %s) \n", SHIFTR,yytext); }
149.    "<<"  {fprintf(yyout, "(%d, %s) \n", SHIFTL,yytext); }
150.    ">"  {fprintf(yyout, "(%d, %s) \n", RELG,yytext); }
151.    ">="  {fprintf(yyout, "(%d, %s) \n", RELGEQ,yytext); }
152.    "<"  {fprintf(yyout, "(%d, %s) \n", RELL,yytext); }
153.    "<="  {fprintf(yyout, "(%d, %s) \n", RELLEQ,yytext); }
154.    "=="  {fprintf(yyout, "(%d, %s) \n", EQUOP,yytext); }
155.    "!="  {fprintf(yyout, "(%d, %s) \n", UEQUOP,yytext); }
156.    "^"  {fprintf(yyout, "(%d, %s) \n", XOR,yytext); }
157.    "|"  {fprintf(yyout, "(%d, %s) \n", OR,yytext); }
158.    "&&"  {fprintf(yyout, "(%d, %s) \n", ANDAND,yytext); }
159.    "||"  {fprintf(yyout, "(%d, %s) \n", OROR,yytext); }
160.    "?"  {fprintf(yyout, "(%d, %s) \n", QUEST,yytext); }
161.    "="  {fprintf(yyout, "(%d, %s) \n", EQUAL,yytext); }
162.    "/="  {fprintf(yyout, "(%d, %s) \n", ASSIGNDIV,yytext); }
163.    "*="  {fprintf(yyout, "(%d, %s) \n", ASSIGNSTAR,yytext); }
164.    "%="  {fprintf(yyout, "(%d, %s) \n", ASSIGNCOM,yytext); }
165.    "+="  {fprintf(yyout, "(%d, %s) \n", ASSIGNPLUS,yytext); }
166.    "-="  {fprintf(yyout, "(%d, %s) \n", ASSIGNMINUS,yytext); }
167.    "&="  {fprintf(yyout, "(%d, %s) \n", ASSIGNAND,yytext); }
168.    "^="  {fprintf(yyout, "(%d, %s) \n", ASSIGNXOR,yytext); }
169.    "|="  {fprintf(yyout, "(%d, %s) \n", ASSIGNOR,yytext); }
170.    ","  {fprintf(yyout, "(%d, %s) \n", COMMA,yytext); }
171.    "#"  {fprintf(yyout, "(%d, %s) \n", SHA,yytext); }
172.    ";"  {fprintf(yyout, "(%d, %s) \n", SEMI,yytext); }
173.    ":"  {fprintf(yyout, "(%d, %s) \n", COLON,yytext); }
174.    . {fprintf(yyout,"Unrecognized character: %s\n", yytext );}
175.    %%
176.    main()
177.    { yyin = fopen("test.txt", "r");
178.    yyout = fopen("result.txt", "w");
179.    if (yyin != NULL) return yylex();
180.    }

  1. abc123
  2. 0 - 9
相关文章
|
自然语言处理 前端开发 JavaScript
《编译与反编译技术实战 》一 1.2 词法分析生成器LEX
LEX是LEXical compiler的缩写,是UNIX环境下非常著名的工具,主要功能是生成一个词法分析器的C源码,描述规则采用正则表达式。描述词法分析器的文件*.l经过LEX编译后生成一个lex.yy.c的文件,然后由C编译器编译生成一个词法分析器。
1702 0