夯实基础,编译器原理前端部分浅析

简介: 如果说计算机网络、操作系统、数据结构这些是编程必学基础,我能理解,现在连编译器原理都是必备基础了吗?是的,我们太习惯于从高级语言学起了,反而忘了C、C++、Java 这些高级语言是如何一层一层解析直至被计算机读懂的。正本清源,我们对编译器的认知,应该提到和操作系统、数据库、浏览器、编程语言、算法这些编程基础技能同一水平。

image.png

编译器同样重要



如果说计算机网络、操作系统、数据结构这些是编程必学基础,我能理解,现在连编译器原理都是必备基础了吗?是的,我们太习惯于从高级语言学起了,反而忘了C、C++、Java 这些高级语言是如何一层一层解析直至被计算机读懂的。正本清源,我们对编译器的认知,应该提到和操作系统、数据库、浏览器、编程语言、算法这些编程基础技能同一水平。


计算机很笨,只能认识 0 和 1,而人呢,脑子的存储能力又非常有限,很难记住大量无规律的东西。在这两者之间就需要一个“翻译官”,让人与计算机能“沟通”,它的名字是“语言处理器”。语言处理器由三部分组成,分别是:编译器、汇编器、解释器。其中编译器是离高级语言最近的一个部分。


编译器是处理完整程序并将源代码转换为可由计算机处理器执行的机器代码的程序。


说白了,编译器本质上就是一个程序,它可以阅读以某一种语言(通常是源语言)编写的程序,并把该程序翻译成为一个等价的、用另一种语言(目标语言)编写的程序。编译器还有一个很重要的任务就是报告他在翻译的过程中发现的源程序中的错误。

对于很多程序员而言,编译器就是一个黑匣子,当你打开这个黑匣子的时候,会发现它由两部分组成,分别是:前端(分析)部分和后端(综合)部分


前端部分的工作主要包括:词法分析、语法分析、语义检查、生成中间代码。这个过程相对于后端,相对简单一点,之所以简单的原因是它所有操作都有了成型的理论支撑。

后端部分的主要工作内容:对中间代码优化,生成目标机器语言,以及对目标语言优化。


image.png


(图片来源:Introduction to deep learning


编译器前端



下面简要说明一下编译器前端部分的几个处理环节。


(1)词法分析


词法分析是由编译器中的词法分析器来执行的。这通常也被称为Lexer(词法分析器)或者说scanner(扫描器)。

程序源码将作为一个文本流来输入到词法分析器中。词法分析器将源程序的各个单词(比如 begin、end、if、for、while 等)转换成词法单元流并输出到语法分析器中。

编译时词法分析器同时会创建一个符号表,符号表在编译过程的所有阶段都会被频繁的访问和修改。符号表包含了程序员在源代码中使用的名称的信息,例如变量和函数名。


(2)语法分析


语法分析则是由语法分析器来执行,通常也叫parser(语法分析器)。语法分析器从词法分析器输出的 token 序列中识别出各类短语,从而构造语法分析树(syntax tree),并判断源程序在结构上是否正确。

比方说源代码:position = initial + rate * 60 构建出来的语法分析树是这样的:

image.png


(3)语义检查


语义分析使用语法树和符号表中的信息来检查源程序是否和语言定义的语义一致。它同时也收集标识符的属性信息,并把这些信息存放在语法树或符号表中,以便在后面中间代码生成过程中使用。

语义分析的一个重要部分是类型检查。编译器检查每个运算符是否具有匹配的运算分量,比如数组的下标要求必须是一个整数,如果用浮点数作为数组下标,编译器就应该报错。


(4)生成中间代码


编译器的处理过程是从源程序到语法树,再到中间代码,再到目标代码,期间可能构造出一个或多个中间表示,且这些中间表示可以有多种形式。一种常见的中间代码是三地址码,也可以通过四元式、三元式或间接三元式的方式表示。


  • 认识三址码


对于三位址码,每一条赋值指令的右侧只能有一个操作符,总共最多有三个地址(等号右侧只能有一个操作符,比如t1=y+z,这里t1,y,z都是地址,它们指向了地址对应的内存数据)


比如高级语言代码:

x = (y + z)*w


会转换成:

t1 = y + z
t2 = w * t1
x = t2


现在比较流行的一种编译器框架是 LLVM,我们可以大致看看编译前后的代码变化,感受一二。


编译前:

int a = 10;
   int b = 11;
   return a + b;


编译后:

%a = alloca i32, align 4
  %b = alloca i32, align 4
  store i32 0, i32* %retval, align 4
  store i32 10, i32* %a, align 4
  store i32 11, i32* %b, align 4
  %0 = load i32, i32* %a, align 4
  %1 = load i32, i32* %b, align 4
  %add = add nsw i32 %0, %1
  ret i32 %add

小结:在本篇编译器原理前端部分浅析中,有一些关键字,比如语法分析树、符号表、三地址码,这些还能拓展很多,后面有机会再做深入⑧


OK,以上便是本篇分享。点赞关注评论,为好文助力👍

我是掘金安东尼 🤠 100 万人气前端技术博主 💥 INFP 写作人格坚持 1000 日更文 ✍ 关注我,安东尼陪你一起度过漫长编程岁月 🌏


相关文章
|
3月前
|
前端开发 UED 开发者
现代前端开发中的响应式设计原理与实践
本文探讨了现代前端开发中响应式设计的重要性及其实现原理。通过分析媒体查询、弹性网格布局以及视口单位等技术手段,揭示了如何通过这些工具实现页面在不同设备上的优雅适配。最后,结合实际案例展示了响应式设计在提升用户体验和网站性能方面的应用。
|
4月前
|
资源调度 监控 前端开发
第七章(原理篇) 微前端技术之依赖管理与版本控制
第七章(原理篇) 微前端技术之依赖管理与版本控制
134 0
|
20天前
|
开发者 C# C++
揭秘:如何轻松驾驭Uno Platform,用C#和XAML打造跨平台神器——一步步打造你的高性能WebAssembly应用!
【8月更文挑战第31天】Uno Platform 是一个跨平台应用程序框架,支持使用 C# 和 XAML 创建多平台应用,包括 Web。通过编译为 WebAssembly,Uno Platform 可实现在 Web 上运行高性能、接近原生体验的应用。本文介绍如何构建高效的 WebAssembly 应用:首先确保安装最新版本的 Visual Studio 或 VS Code 并配置 Uno Platform 开发环境;接着创建新的 Uno Platform 项目;然后通过安装工具链并使用 Uno WebAssembly CLI 编译应用;最后添加示例代码并测试应用。
40 0
|
3月前
|
前端开发 持续交付 开发工具
详细介绍Git的基本原理、在前端开发中的应用以及如何使用Git来优化团队协作
【6月更文挑战第14天】Git是前端开发中的必备工具,它通过分布式版本控制管理代码历史,支持分支、合并和冲突解决,促进团队协作。在前端开发中,Git用于代码追踪、版本控制、代码审查和持续集成部署,优化团队协作。制定分支策略、编写清晰提交信息、定期合并清理分支以及使用Git钩子和自动化工具能进一步提升效率。理解并善用Git,能有效提升前端项目的质量和开发效率。
56 3
|
2月前
|
JavaScript 前端开发
前端框架原理自测题:根据 JSX / Vue 模板写出 render 函数 / VNode
前端框架原理自测题:根据 JSX / Vue 模板写出 render 函数 / VNode
22 0
|
2月前
|
前端开发 JavaScript
前端 JS 经典:图片裁剪上传原理
前端 JS 经典:图片裁剪上传原理
23 0
|
2月前
|
缓存 JavaScript 前端开发
前端 JS 经典:浏览器中 ESModule 的工作原理
前端 JS 经典:浏览器中 ESModule 的工作原理
26 0
|
3月前
|
前端开发
前端React篇之React setState 调用的原理、React setState 调用之后发生了什么?是同步还是异步?
前端React篇之React setState 调用的原理、React setState 调用之后发生了什么?是同步还是异步?
|
3月前
|
存储 缓存 JavaScript
【前端 - Vue】之 Keep-Alive缓存组件使用语法及原理解析,超详细!
【前端 - Vue】之 Keep-Alive缓存组件使用语法及原理解析,超详细!
|
4月前
|
Web App开发 前端开发 iOS开发
CSS3 转换,深入理解Flutter动画原理,前端基础图形
CSS3 转换,深入理解Flutter动画原理,前端基础图形