[oeasy]python0135_python_语义分析_ast_抽象语法树_abstract_syntax_tree

简介: [oeasy]python0135_python_语义分析_ast_抽象语法树_abstract_syntax_tree

语义分析_抽象语法树_反汇编 回忆

  • 上次回顾了一下历史
  • python 是如何从无到有的
  • 看到 Guido 长期的坚持和努力


添加图片注释,不超过 140 字(可选)

  • python究竟是如何理解
  • print("hello")的?
  • 这些ascii字母如何被组织起来执行?


纯文本

  • 首先编写Guido的简历

print("1982------Guido in cwi") print("1995------Guido in cnri") print("2000------Guido in beopen") print("2005------Guido in google") print("2012------Guido in dropbox") print("2020------Guido in microsoft")

  • 并保存为Guido.py

生成token流

  • 回到shell之后
  • 从字符流生成token流


添加图片注释,不超过 140 字(可选)

  • 这个过程叫做分词

分词

  • 首先把一个个字符组成词
  • 分析一下哪些字可以组成词
  • 术语叫词法分析(lexical analysis)


添加图片注释,不超过 140 字(可选)

  • 词分析出来之后呢?

组词

  • 词分析出来就是怎么组词的问题
  • 哪些词和哪些词先组合
  • 哪些词和哪些词后组合


  • 生成一棵抽象语法树
  • AST(Abstract Syntax Tree)


添加图片注释,不超过 140 字(可选)

  • 我能看看这棵ast树么?

引入ast模块

添加图片注释,不超过 140 字(可选)

  • 具体怎么做呢?

流程

  • 先把这个ast模块导入(import)进来
  • 第一句就是import ast
  • 回车之后没有任何报错
  • 那就是执行成功了
  • 后面也一样
  • 没有报错就是执行成功了


添加图片注释,不超过 140 字(可选)

  • 然后读取guido.py并送到s
  • 然后对于s进行语法分析(parse)

添加图片注释,不超过 140 字(可选)

  • 再把分析(parse)的结果进行转储(dump)
  • 看起来有点乱
  • 可以清晰一些么?


升级Python

  • 目前lanqiao.cn上面的python是3.8
  • 这个清晰缩进的格式需要在3.9以上完成
  • 需要升级

sudo apt update sudo apt install python3.9

  • 升级之后就可以使用Python3.9了

添加图片注释,不超过 140 字(可选)

缩进换行

  • 只能在本地演示一下

添加图片注释,不超过 140 字(可选)

  • 这个就是把词组成语法树的样子
  • 如何理解这棵树呢?
  • 我们看一个例子

表达式运算

  • 如果给的表达式为 1 2 3

添加图片注释,不超过 140 字(可选)

  • 结合序为下图

添加图片注释,不超过 140 字(可选)

  • 前两个先结合
  • 得到的结果作为下一个运算的左操作数
  • 然后和第3个结合

结合序

  • 如果把 第一个* 改成 + 号
  • 其他什么也没加

添加图片注释,不超过 140 字(可选)

  • 表达式是1 + 2 * 3

添加图片注释,不超过 140 字(可选)

  • 后两个会先结合
  • 得到的结果 作为下一个运算的 右操作数
  • 然后再和1 进行 加法运算


  • 有了 语法树
  • 下一步 要做什么呢?


  • 这棵语法树 我们能看懂
  • 但是cpu 需要的是
  • 能执行的 一条条字节码指令



翻译成 字节码

  • 要把源程序 翻译成字节码 才能执行
  • 字节码 对应着cpu的指令


  • 怎么把ast 转化为字节码(指令) 呢?
  • 需要 编译(compile)


  • 从一种语言 到 另一种语言
  • 从py文件
  • 到字节码(指令)
  • 就是编译
  • compile



添加图片注释,不超过 140 字(可选)

compile

添加图片注释,不超过 140 字(可选)

  • 我可以看看这个编译过程么?

指令

  • instruction
  • python3 -m dis Guido.py
  • -m 代表使用模块
  • dis 代表反编译(disassemble)


添加图片注释,不超过 140 字(可选)

  • 我们可以看见
  • 前面是行号
  • 每行对应4条指令
  • LOAD_NAME 装载(函数)名字
  • LOAD_CONST 装载常量
  • CALL_FUNCTION 调用函数
  • POP_TOP 弹栈



编译结果

  • 先看看这个pyc文件
  • 注意他在__pycache__文件夹下


添加图片注释,不超过 140 字(可选)

  • :%!xxd
  • 把文件转化为字节形态


添加图片注释,不超过 140 字(可选)

  • 这纯纯的机器语言字节形态
  • 实在是看不懂啊😭
  • 这真的是指令么?


  • 究竟什么是指令呢?

指令

  • py文件每行print 对应4条指令
  • LOAD_NAME 装载(函数)名字
  • LOAD_CONST 装载常量
  • CALL_FUNCTION 调用函数
  • POP_TOP 弹栈


添加图片注释,不超过 140 字(可选)

  • 这样 我们 能否找到
  • 4条指令 分别对应的 字节状态值


找到对应关系

指令助记符

指令含义

十进制状态

十六进制状态

LOAD_NAME

装载函数名称

101

0x65

LOAD_CONST

装载参数

100

0x64

CALL_FUNCTION

调用函数

142

0x8e

POP_TOP

弹栈返回

1

0x01

  • 可以找对应关系

添加图片注释,不超过 140 字(可选)

  • 我们从头捋一下

python3 执行过程

  • 不管是python3这个游乐场
  • 还是Guido.py这个python程序
  • 都在我们的硬盘上


添加图片注释,不超过 140 字(可选)

  • 先得把文件从硬盘读到内存

python3 执行的过程大致是这样

  • 先把python3.8这个主解释器
  • 加载到内存中


  • 然后 在x86-64的cpu上 执行
  • 模拟出 一台python虚拟机


添加图片注释,不超过 140 字(可选)

  • 准备开始 对py文件 解释执行

先编译

  • 然后把参数 Guido.py 这个需要执行的程序 加载到内存
  • 词法分析 得到 词流(token stream)
  • 语法分析 得到 抽象语法树(Abstract Syntax Tree)
  • 编译 得到 字节码 (byte_code)


添加图片注释,不超过 140 字(可选)

  • 也就是编译后 的pyc文件

解释执行

  • 不过 这个pyc指令文件
  • 是基于python虚拟机的 虚拟cpu的 指令集的


添加图片注释,不超过 140 字(可选)

  • 需要放到 模拟好的 python虚拟机中
  • 一条条指令 进行执行

换句话说

  • 简化版的 hello.py 的执行过程是:
  • 给了 python3 一个参数 Guido.py
  • 使用 python3 这个解释器来解释执行 Guido.py
  • Guido.py中的语句一句句地依次解释执行


  • 全解释完成 后
  • 退出python这个程序
  • 把控制权交回到shell


添加图片注释,不超过 140 字(可选)

  • 这些 都是基于 解释器python3的
  • 所谓的 解释器python3
  • 先编译成 python虚拟机的 虚拟指令字节码
  • 然后用 python虚拟机 直接执行虚拟指令



  • 而解释器(python3) 是
  • 在不同系统 不同架构的cpu语言上 运行的


添加图片注释,不超过 140 字(可选)

  • 那不同的系统、cpu架构
  • python3 为什么 都能正确地解释?


总结

  • 这次把py源文件
  • 词法分析 得到 词流(token stream)
  • 语法分析 得到 抽象语法树(Abstract Syntax Tree)
  • 这里确立了优先级


  • 编译 得到 字节码 (bytecode)


  • 字节码我们看不懂
  • 所以反编译 得到 指令文件(opcode)
  • 指令文件是基于python虚拟机的虚拟cpu的指令集



添加图片注释,不超过 140 字(可选)

  • 先从 python3最基础的
  • 变量声明和赋值来看看
  • python虚拟机是如何做的?🤔




目录
相关文章
|
6月前
|
程序员 开发工具 Python
[oeasy]python017_万行代码之梦_vim环境_复制粘贴
在这个教程中,作者分享了如何在 Vim 编辑器中快速创建和操作大量代码行。首先,通过 `yy` 复制一行,然后使用 `p` 粘贴来增加代码行数。通过反复粘贴,可以迅速生成多行代码。为了加快操作,可以用 `9999p` 来一次性粘贴9999行。接着,介绍了撤销(`u`)和重做(`ctrl+r`)的操作,以及删除整篇文档的快捷方式。最后,作者提到虽然可以生成一万行代码,但并不建议这样做,因为可能会导致程序崩溃,并提醒大家适度编程。
163 2
|
2月前
|
Unix 编译器 Shell
[oeasy]python0033_先有操作系统还是先有编程语言_c语言是怎么来的
本文回顾了计算机语言与操作系统的起源,探讨了早期 Unix 操作系统及其与 C 语言的相互促进发展。Unix 最初用汇编语言编写,运行在 PDP-7 上,后来 Thompson 和 Ritchie 开发了 C 语言及编译器,使 Unix 重写并成功编译。1974 年 Ritchie 发表论文,Unix 开始被学术界关注,并逐渐普及。伯克利分校也在此过程中发挥了重要作用,推动了 Unix 和 C 语言的广泛传播。
61 9
[oeasy]python0033_先有操作系统还是先有编程语言_c语言是怎么来的
|
7天前
|
人工智能 Shell 开发工具
[oeasy]python0041_输出ASCII码表_英文字符编码_键盘字符_ISO_646
本文介绍了ASCII码表的生成与使用,包括英文字符、数字和符号的编码。通过Python代码遍历0到127的ASCII值,解决了找不到竖线符号的问题,并解释了ASCII码的固定映射关系及其重要性。文章还介绍了ASCII码的历史背景,以及它如何成为国际标准ISO 646。最后,通过安装`ascii`程序展示了完整的ASCII码表。
9 1
|
18天前
|
人工智能 Python
[oeasy]python039_for循环_循环遍历_循环变量
本文回顾了上一次的内容,介绍了小写和大写字母的序号范围,并通过 `range` 函数生成了 `for` 循环。重点讲解了 `range(start, stop)` 的使用方法,解释了为什么不会输出 `stop` 值,并通过示例展示了如何遍历小写和大写字母的序号。最后总结了 `range` 函数的结构和 `for` 循环的使用技巧。
29 4
|
25天前
|
存储 Python
[oeasy]python038_ range函数_大小写字母的起止范围_start_stop
本文介绍了Python中`range`函数的使用方法及其在生成大小写字母序号范围时的应用。通过示例展示了如何利用`range`和`for`循环输出指定范围内的数字,重点讲解了小写和大写字母对应的ASCII码值范围,并解释了`range`函数的参数(start, stop)以及为何不包括stop值的原因。最后,文章留下了关于为何`range`不包含stop值的问题,留待下一次讨论。
19 1
|
11天前
|
人工智能 开发工具 Python
[oeasy]python040_缩进几个字符好_输出所有键盘字符_循环遍历_indent
本文探讨了Python代码中的缩进问题。通过研究`range`函数和`for`循环,发现缩进对于代码块的执行至关重要。如果缩进不正确,程序会抛出`IndentationError`。文章还介绍了Python的PEP8规范,推荐使用4个空格进行缩进,并通过示例展示了如何使用Tab键实现标准缩进。最后,通过修改代码,输出了从0到122的字符及其对应的ASCII码值,但未能找到竖线符号(`|`)。文章在总结中提到,下次将继续探讨竖线符号的位置。
11 0
|
1月前
|
Python
[oeasy]python036_数据类型有什么用_type_类型_int_str_查看帮助
本文回顾了Python中`ord()`和`chr()`函数的使用方法,强调了这两个函数互为逆运算:`ord()`通过字符找到对应的序号,`chr()`则通过序号找到对应的字符。文章详细解释了函数参数类型的重要性,即`ord()`需要字符串类型参数,而`chr()`需要整数类型参数。若参数类型错误,则会引发`TypeError`。此外,还介绍了如何使用`type()`函数查询参数类型,并通过示例展示了如何正确使用`ord()`和`chr()`进行转换。最后,强调了在函数调用时正确传递参数类型的重要性。
21 3
|
1月前
|
存储 C++ Python
[oeasy]python037_ print函数参数_sep分隔符_separator
本文介绍了Python中`print`函数的`sep`参数,即分隔符。通过回顾上文内容,解释了类型与`type`的概念,并强调了参数类型的重要性。文章详细探讨了`print`函数如何使用`sep`参数来分隔输出值,默认分隔符为空格(序号32)。还讨论了如何修改分隔符为其他字符,如冒号,并解释了为何反斜杠需要使用双反斜杠表示。最后,文章追溯了`sep`名称的由来,以及相关词汇的历史背景,如盎格鲁-萨克逊人的武器和语言。
26 0
|
2月前
|
Python
[oeasy]python035_根据序号得到字符_chr函数_字符_character_
本文介绍了Python中的`ord()`和`chr()`函数。`ord()`函数通过字符找到对应的序号,而`chr()`函数则根据序号找到对应的字符。两者互为逆运算,可以相互转换。文章还探讨了单双引号在字符串中的作用,并解释了中文字符和emoji也有对应的序号。最后总结了`ord()`和`chr()`函数的特点,并提供了学习资源链接。
28 4
|
3月前
|
算法 Unix 程序员
[oeasy]python031_[趣味拓展]unix起源_Ken_Tompson_Ritchie_multics
回顾了上次内容关于调试的基本概念后,本文介绍了Unix操作系统的起源。从早期计算机任务的独占执行方式讲起,到1960年代 Dartmouth 开发出分时算法,使得一台主机能够面对多个终端,轮流使用CPU时间片。随后,贝尔实验室、通用电气和MIT合作开展Multics项目,项目成员Kenneth Thompson与Dennis Ritchie在此期间开发了一款名为《Space Travel》的游戏。然而,因金融动荡等原因,Multics项目最终被裁撤。Thompson和Ritchie后来利用实验室闲置的一台PDP-7计算机仅用三周时间就开发出了Unix操作系统的第一版,初衷是为了能够继续玩游戏。
40 3