v深入研究Clang(四) Clang编译器的简单分析

简介:

作者:史宁宁(snsn1984)

首先我们确定下Clang编译器的详细内容和涵盖范围。之前在《LLVM每日谈之二十 Everything && Clang driver 》中以前提到过。Clang driver(命令行表示是clang)和Clang前端(依照详细实现来说就是Clang的那些库所实现的前端)是不同的。同一时候还存在一个Clang编译器(命令行表示是clang -cc1)。Clang编译器不只包括了Clang前端,还包括使用LLVM的哭实现的编译器的中间阶段以及后端,同一时候也集成了assembler。

Clang driver有一系列的frontend action,这些frontend action定义于clang/include/clang/Frontend/FrontendOptions.h中的ActionKind枚举中。

当中一些frontend action就会触发Clang编译器(clang -cc1),比方:ASTView, EmitBC, EmitObj等。一旦触发了Clang编译器(clang -cc1)。就会执行函数cc1_main()(clang/tools/driver/cc1_main.cpp),从名字上就能够看出来,这个函数是Clang编译器(clang -cc1)的入口主函数。

举个详细的样例来看一下:

min.c

int min(int a, int b) {
    if (a < b) {
        return a;
    }
    return b;
}

执行命令: clang -### min.c -o min

clang version 3.5.0 (tags/RELEASE_350/final)
Target: x86_64-unknown-linux-gnu
Thread model: posix
 "/home/shining/llvm-3.5/build/bin/clang-3.5" "-cc1" "-triple" "x86_64-unknown-linux-gnu" "-emit-obj" "-mrelax-all" "-disable-free" "-main-file-name" "min.c" "-mrelocation-model" "static" "-mdisable-fp-elim" "-fmath-errno" "-masm-verbose" "-mconstructor-aliases" "-munwind-tables" "-fuse-init-array" "-target-cpu" "x86-64" "-dwarf-column-info" "-resource-dir" "/home/shining/llvm-3.5/build/bin/../lib/clang/3.5.0" "-internal-isystem" "/usr/local/include" "-internal-isystem" "/home/shining/llvm-3.5/build/bin/../lib/clang/3.5.0/include" "-internal-externc-isystem" "/usr/include/x86_64-linux-gnu" "-internal-externc-isystem" "/include" "-internal-externc-isystem" "/usr/include" "-fdebug-compilation-dir" "/home/shining/llvm-3.5/build/bin" "-ferror-limit" "19" "-fmessage-length" "80" "-mstackrealign" "-fobjc-runtime=gcc" "-fdiagnostics-show-option" "-o" "/tmp/min-75c13b.o" "-x" "c" "min.c"
 "/usr/bin/ld" "-z" "relro" "--hash-style=gnu" "--build-id" "--eh-frame-hdr" "-m" "elf_x86_64" "-dynamic-linker" "/lib64/ld-linux-x86-64.so.2" "-o" "min" "/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/crt1.o" "/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/crti.o" "/usr/lib/gcc/x86_64-linux-gnu/4.8/crtbegin.o" "-L/usr/lib/gcc/x86_64-linux-gnu/4.8" "-L/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu" "-L/lib/x86_64-linux-gnu" "-L/lib/../lib64" "-L/usr/lib/x86_64-linux-gnu" "-L/usr/lib/gcc/x86_64-linux-gnu/4.8/../../.." "-L/home/shining/llvm-3.5/build/bin/../lib" "-L/lib" "-L/usr/lib" "/tmp/min-75c13b.o" "-lgcc" "--as-needed" "-lgcc_s" "--no-as-needed" "-lc" "-lgcc" "--as-needed" "-lgcc_s" "--no-as-needed" "/usr/lib/gcc/x86_64-linux-gnu/4.8/crtend.o" "/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/crtn.o"
-###參数是为了查看。clang driver究竟调用了哪些命令,而且不会执行这些命令。从这里能够实际看到,实际上调用的是 clang-3.5 -cc1。当中3.5是版本,所以事实上调用的就是clang编译器。

之后又调用了系统的ld loader,由于LLVM架构的loader还在开发之中。

所以,对于那些我们已经明白须要clang编译器去作的工作,我们能够不通过clang driver去隐式调用(比方上面的样例)。而是直接在命令行调用clang -cc1去执行。而且在clang -cc1之后跟clang编译器接受的參数。也能够通过clang -Xclang就能够直接将參数传递给clang编译器(clang -cc1)。以下的详细实现,将同一时候给出这两种的命令行形式,事实上执行结果差点儿是全然同样的。不同的是,使用clang -Xclang的时候,假设不加强制的參数,这里尽管-Xclang将參数传递给了clang -cc1,可是这里的clang driver依旧会继续工作的。在以下的样例中会进行分别的展示

编译器首先进行的是词法分析。我们能够通过命令行去查看进行词法分析之后的token序列究竟是怎么样的,仍然以上面的min.c为例,执行命令:

clang -cc1 -dump-tokens min.c

执行之后得到例如以下输出:

int 'int'	 [StartOfLine]	Loc=<min.c:1:1>
identifier 'min'	 [LeadingSpace]	Loc=<min.c:1:5>
l_paren '('		Loc=<min.c:1:8>
int 'int'		Loc=<min.c:1:9>
identifier 'a'	 [LeadingSpace]	Loc=<min.c:1:13>
comma ','		Loc=<min.c:1:14>
int 'int'	 [LeadingSpace]	Loc=<min.c:1:16>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:1:20>
r_paren ')'		Loc=<min.c:1:21>
l_brace '{'	 [LeadingSpace]	Loc=<min.c:1:23>
if 'if'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:2:5>
l_paren '('	 [LeadingSpace]	Loc=<min.c:2:8>
identifier 'a'		Loc=<min.c:2:9>
less '<'	 [LeadingSpace]	Loc=<min.c:2:11>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:2:13>
r_paren ')'		Loc=<min.c:2:14>
l_brace '{'	 [LeadingSpace]	Loc=<min.c:2:16>
return 'return'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:3:9>
identifier 'a'	 [LeadingSpace]	Loc=<min.c:3:16>
semi ';'		Loc=<min.c:3:17>
r_brace '}'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:4:5>
return 'return'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:5:5>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:5:12>
semi ';'		Loc=<min.c:5:13>
r_brace '}'	 [StartOfLine]	Loc=<min.c:6:1>
eof ''		Loc=<min.c:6:2>
或者选用: clang -Xclang -dump-tokens min.c

输出信息例如以下:

int 'int'	 [StartOfLine]	Loc=<min.c:1:1>
identifier 'min'	 [LeadingSpace]	Loc=<min.c:1:5>
l_paren '('		Loc=<min.c:1:8>
int 'int'		Loc=<min.c:1:9>
identifier 'a'	 [LeadingSpace]	Loc=<min.c:1:13>
comma ','		Loc=<min.c:1:14>
int 'int'	 [LeadingSpace]	Loc=<min.c:1:16>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:1:20>
r_paren ')'		Loc=<min.c:1:21>
l_brace '{'	 [LeadingSpace]	Loc=<min.c:1:23>
if 'if'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:2:5>
l_paren '('	 [LeadingSpace]	Loc=<min.c:2:8>
identifier 'a'		Loc=<min.c:2:9>
less '<'	 [LeadingSpace]	Loc=<min.c:2:11>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:2:13>
r_paren ')'		Loc=<min.c:2:14>
l_brace '{'	 [LeadingSpace]	Loc=<min.c:2:16>
return 'return'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:3:9>
identifier 'a'	 [LeadingSpace]	Loc=<min.c:3:16>
semi ';'		Loc=<min.c:3:17>
r_brace '}'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:4:5>
return 'return'	 [StartOfLine] [LeadingSpace]	Loc=<min.c:5:5>
identifier 'b'	 [LeadingSpace]	Loc=<min.c:5:12>
semi ';'		Loc=<min.c:5:13>
r_brace '}'	 [StartOfLine]	Loc=<min.c:6:1>
eof ''		Loc=<min.c:6:2>
/usr/bin/ld: cannot find /tmp/min-3cce9d.o: No such file or directory
clang-3.5: error: linker command failed with exit code 1 (use -v to see invocation)
明显能够看到,使用-Xclang的时候,把-dump-tokens參数传递给了clang -cc1,可是clang driver依旧工作,而且调用了ld.

能够使用clang -### -Xclang -dump-tokens min.c命令进行验证。


看过了词法分析阶段,我们再看下clang编译器语法分析来的AST nodes。

使用命令:clang -cc1 -fsyntax-only -ast-dump min.c

或者:clang -fsyntax-only -Xclang -ast-dump min.c

输出结果一样:

TranslationUnitDecl 0x6bc3a40 <<invalid sloc>> <invalid sloc>
|-TypedefDecl 0x6bc3f40 <<invalid sloc>> <invalid sloc> implicit __int128_t '__int128'
|-TypedefDecl 0x6bc3fa0 <<invalid sloc>> <invalid sloc> implicit __uint128_t 'unsigned __int128'
|-TypedefDecl 0x6bc42f0 <<invalid sloc>> <invalid sloc> implicit __builtin_va_list '__va_list_tag [1]'
`-FunctionDecl 0x6bc4490 <min.c:1:1, line:6:1> line:1:5 min 'int (int, int)'
  |-ParmVarDecl 0x6bc4350 <col:9, col:13> col:13 used a 'int'
  |-ParmVarDecl 0x6bc43c0 <col:16, col:20> col:20 used b 'int'
  `-CompoundStmt 0x6bc46f8 <col:23, line:6:1>
    |-IfStmt 0x6bc4668 <line:2:5, line:4:5>
    | |-<<<NULL>>>
    | |-BinaryOperator 0x6bc45c0 <line:2:9, col:13> 'int' '<'
    | | |-ImplicitCastExpr 0x6bc4590 <col:9> 'int' <LValueToRValue>
    | | | `-DeclRefExpr 0x6bc4540 <col:9> 'int' lvalue ParmVar 0x6bc4350 'a' 'int'
    | | `-ImplicitCastExpr 0x6bc45a8 <col:13> 'int' <LValueToRValue>
    | |   `-DeclRefExpr 0x6bc4568 <col:13> 'int' lvalue ParmVar 0x6bc43c0 'b' 'int'
    | |-CompoundStmt 0x6bc4648 <col:16, line:4:5>
    | | `-ReturnStmt 0x6bc4628 <line:3:9, col:16>
    | |   `-ImplicitCastExpr 0x6bc4610 <col:16> 'int' <LValueToRValue>
    | |     `-DeclRefExpr 0x6bc45e8 <col:16> 'int' lvalue ParmVar 0x6bc4350 'a' 'int'
    | `-<<<NULL>>>
    `-ReturnStmt 0x6bc46d8 <line:5:5, col:12>
      `-ImplicitCastExpr 0x6bc46c0 <col:12> 'int' <LValueToRValue>
        `-DeclRefExpr 0x6bc4698 <col:12> 'int' lvalue ParmVar 0x6bc43c0 'b' 'int'

通过clang -### -fsyntax-only -Xclang -ast-dump min.c查看实际执行命令。事实上跟使用clang -cc1是同样的。


參考资料:

1. 《Getting Started with LLVM Core Libraries》

2.  Code of clang





本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/5138868.html,如需转载请自行联系原作者

目录
打赏
0
0
0
0
56
分享
相关文章
深入研究Clang(四) Clang编译器的简单分析
作者:史宁宁(snsn1984) 首先我们确定下Clang编译器的具体内容和涵盖范围。之前在《LLVM每日谈之二十 Everything && Clang driver 》中曾经提到过,Clang driver(命令行表示是clang)和Clang前端(按照具体实现来说就是Clang的那些库所实现的前端)是不同的,同时还存在一个Clang编译器(命令行表示是clang -cc1)。
1489 0
深入研究Clang(三) libclang
作者:史宁宁 现在的Clang,不仅仅是一个编译器前端,同时也可以作为一个库使用。作为一个库使用的时候,可以用它去分析C/C++/ObjectC语言代码,可以分析源码得到AST,也可以获取已经分析好的AST,也可以遍历AST,还可以获取AST中基本元素的物理源码位置。
1306 0
LLVM每日谈之二十一 一些关于编译器和LLVM/Clang的代码
作者:史宁宁(snsn1984) 自己收集了一些LLVM/Clang的代码,并且自己也在一点一点的写一些LLVM/Clang以及编译器的代码,在这里把这些代码库分享出来,欢迎大家交流探讨。
1165 0
LLVM每日谈之十七 LLVM/Clang的学习的思考
        之前一直关注LLVM和基于LLVM的工程(工具)多一些,对Clang和基于Clang的工具关注不是很多。这就导致了一个很严重的问题,觉的如果要深入理解Clang就必须要去读Clang的源码,这个想法不是不对,但是这不是唯一的路,而且Clang的源码太多,容易让人无法坚持下去,也容易让人无从下手。
1103 0
LLVM编译器前端 Clang 简介
昨天晚上安装rails的开发环境,被ruby的编译搞的有点崩溃。下载的ruby的源码不能用系统自带的gcc -4.21编译,也不能用系统自带的clang进行编译,必须下载并使用gcc -4.2进行编译才能通过。今天稍微看看编译器的一些背景。
605 0
LLVM编译器前端 Clang 简介
深入研究Clang(五) Clang Lexer代码阅读笔记之Lexer
作者:史宁宁(snsn1984) Clang的Lexer(词法分析器)的源码的主要位置如下: clang/lib/Lex    这里是主要的Lexer的代码; clang/include/clang/Lex   这里是Lexer的头文件代码的位置; 同时,Lexer还使用了clangBasic库,所以要分析Lexer的代码,clangBasic(clang/lib/Basic)的一些代码也会用到。
1270 0
深入研究Clang(六) Clang Lexer代码阅读笔记之Preprocesser
作者:史宁宁(snsn1984) clang/include/clang/Lex/Preprocesser.h 这个文件是包含clang::Preprocesser类的定义的头文件。
1285 0
深入研究Clang(七) Clang Lexer代码阅读笔记之Lexer
作者:史宁宁(snsn1984) 源码位置:clang/lib/Lexer.cpp 源码网络地址:http://clang.llvm.org/doxygen/Lexer_8cpp_source.html Lexer.cpp这个文件,是Clang这个前端的词法分析器的主要文件,它的内容是对Lexer这个类的具体实现,原文件的注释中:“This file implements the Lexer and Token interfaces.” 这么解释这个文件的,但是Token只有两个简单函数的实现,剩下的都是Lexer的实现。
1643 0
LLVM每日谈之十一 编译器相关学习资料推荐
作者:snsn1984 近来碰到一些想学习LLVM但是已经把编译原理的知识还给老师的朋友,让帮忙推荐一些学习资料,我就把手头有的一些资料,大都是自己读过的一些资料整理一下,列出来,希望对大家有所帮助。
1229 0
《编译与反编译技术实战 》一1.5 编译器LLVM
LLVM是构架编译器的框架系统,由C++编写而成,用于优化以任意程序语言编写的程序的编译时间、链接时间、运行时间以及空闲时间,对开发者保持开放,并兼容已有脚本。LLVM计划启动于2000年,最初由伊利诺伊大学香槟分校的Chris Lattner主持开展。
1582 0

热门文章

最新文章