【编译原理】词法分析

简介: 【编译原理】词法分析

目的

词法分析的任务,就是输入源程序,对构成源程序的字符串进行扫描和分解,识别出单词符号。

怎么做呢?

根据构词规则,然后使用有限自动机来描述

几个概念

文法

文法是用来描述语言的语法成分结构构造的形式规则, 我们通常用G表示。

文法定义的形式-四元组(Vn,Vt,P,S): Vn为非终结符集,Vt 为终结符集,P为规则集,S为识别符|开始符,至少要在一个规则中作为左部出现,Vn ∩ Vt = ∅。

乔姆斯基根据文法生成力不同而对正则语言做的分类,把文法分成4个层级,层级越高,规则越多,下面是四个类型:

具体四个类型之间的关系可以参考这个:文法分类

我们目前只需要知道:

¨0型(无限制文法):

¨1型(上下文有关):

¨ 2型(上下文无关):

¨3型(右线性和正规文法):

正规式(regular expression)

正规式是定义正规集的数学工具,是说明单词的模式(pattern)的一种表示法,用它描述单词符号时一般比正规文法更简洁。

  • 正规式和正则表达式都是通过一定的语法规则来描述文法,但不是同一个概念。
  • 正规式是一种用来描述正则语言的更紧凑的表示方法
  • 正规式可以由较小的正规式按照特定规则递归地构建。每个正规式r定义(表示)一个语言,记为L(r)。

正规集

能用正规式或正规文法表示的集合称为正规集。

状态转换图

可以理解为状态转换图是词法分析程序的设计工具。

有限自动机

有限自动机是一种状态机,它以一串符号作为输入,并相应地改变其状态。有限自动机是正则表达式的识别器。当正则表达式字符串被输入到有限自动机中时,它会为每个文本更改其状态。如果输入字符串成功处理并且自动机达到其最终状态,则接受它,即刚刚输入的字符串被认为是当前语言的有效标记。

有限自动机是对状态图的形式化描述,有限自动机M由五元组(X,Y,S,δ,λ)

  • X,Y是S的非空有限集
  • X:输入集
  • Y:输出集
  • S:状态集合
  • δ:笛卡尔积SxX到S的映射,也叫M的下一状态函数
  • λ:SxY到Y的单值映射,也叫M的输出函数
    有限自动机 = 内部状态集+控制规则

有限自动机分为两类

DFA 确定有限自动机
  • 开始状态唯一
  • 一个输入对应一个状态转换
NFA 不确定有限自动机
  • 开始状态为一个状态集合
  • 一个输入对应多个状态转换
  • 有向弧的标记上可以为空

他们有什么关系?

正规文法和正规式等价

一个正规语言可用正规文法表示也可用正规式表示,两者具有等价性。通常正规式在描述语言时比正规文法更为简洁。

状态转换图和有穷自动机等价

正规式用来构造NFA

DFA和NFA是等价的

相关文章
|
SQL 关系型数据库 MySQL
【图形工具】MySQL Workbench 图形化界面工具
【图形工具】MySQL Workbench 图形化界面工具
1004 0
|
编解码 定位技术
Google Earth Engine谷歌地球引擎GEE图层投影信息与参考坐标系及其空间转换参数获取
Google Earth Engine谷歌地球引擎GEE图层投影信息与参考坐标系及其空间转换参数获取
434 1
|
机器学习/深度学习 运维 算法
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
2997 0
|
JavaScript
vue及element项目环境搭建
vue及element项目环境搭建
186 0
|
14小时前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7330 32
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
14小时前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
638 142
|
14小时前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
14小时前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1241 2
|
14小时前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1165 1