【编译原理】手工打造语法分析器

重点:

  • 语法分析的原理
  • 递归下降算法(Recursive Descent Parsing)
  • 上下文无关文法(Context-free Grammar,CFG)

关键点:

  • 左递归问题
  • 深度遍历求值 - 后续遍历

上一篇「词法分析器」将字符串拆分为了一个一个的 token。
本篇我们将 token 变成语法树。

一、递归下降算法

还是这个例子 int age = 45
我们给出这个语法的规则:

intDeclaration : Int Identifier ('=' additiveExpression)?;

如果翻译为程序的话,伪代码如下

// 伪代码
MatchIntDeclare(){
  MatchToken(Int);        // 匹配 Int 关键字
  MatchIdentifier();       // 匹配标识符
  MatchToken(equal);       // 匹配等号
  MatchExpression();       // 匹配表达式
}

输出的 AST 类似于:

Programm Calculator
    IntDeclaration age
        AssignmentExp =
            IntLiteral 45

上面的过程,称为「递归下降算法」。
从顶部开始不断向下生成节点,其中还会有递归调用的部分。

二、上下文无关文法

上面的例子比较简单,还可以用正则表达式文法来表示。
但如果是个算数表达式呢?正则文法就很难表示了。

  • 2+3*5
  • 2*3+5
  • 2*3

这时我们可以用递归的规则来表示

additiveExpression
    :   multiplicativeExpression
    |   additiveExpression Plus multiplicativeExpression
    ;
 
multiplicativeExpression
    :   IntLiteral
    |   multiplicativeExpression Star IntLiteral
    ;

生成的 AST 为:
image.png

如果要计算表达式的值,只需要对根节点求值就可以了。
这个就叫做**「上下文无关文法」**。

但你把上述规则翻译为代码逻辑时,会发现一个问题,无限递归
我们先用个最简单的示例:

	additiveExpression
    :   IntLiteral
    |   additiveExpression Plus IntLiteral
    ;

比如输入 2+3

  • 先判断其是不是 IntLiteral,发现不是
  • 然后匹配 additiveExpression Plus IntLiteral,此时还没有消耗任何的 token
  • 先进入的是 additiveExpression,此时要处理的表达式还是 2+3
  • 又回到开始,无限循环

这里要注意的一个问题:
并不是觉得 2+3 符合 additiveExpression Plus IntLiteral 就能直接按照 + 拆分为两部分,然后两部分分别去匹配。
这里是顺序匹配的,直到匹配到该语法规则的结束符为止。
additiveExpression Plus IntLiteraladditiveExpression 的部分,也是在处理完整的 token 的(2+3)。

三、左递归解决方案

改为右递归

如何处理这个左递归问题呢?
我们可以把表达式换个位置:

	additiveExpression
    :   IntLiteral
    |   IntLiteral Plus additiveExpression
    ;

先匹配 IntLiteral 这样就能消耗掉一个 token,就不会无限循环了。
比如还是 2+3

  • 2+3 不是 IntLiteral,跳到下面
  • 2+3 的第一个字符是 2IntLiteral 消耗掉,并结束 IntLiteral 匹配
  • 然后 +Plus 消耗掉
  • 最后 3 进入 additiveExpression,匹配为第一条规则 IntLiteral

这样就结束了,没有无限循环。
改写成算法是:

private SimpleASTNode additive(TokenReader tokens) throws Exception {
    SimpleASTNode child1 = IntLiteral();  // 计算第一个子节点
    SimpleASTNode node = child1;  // 如果没有第二个子节点,就返回这个
    Token token = tokens.peek();
    if (child1 != null && token != null) {
        if (token.getType() == TokenType.Plus) {
            token = tokens.read();
            SimpleASTNode child2 = additive(); // 递归地解析第二个节点
            if (child2 != null) {
                node = new SimpleASTNode(ASTNodeType.AdditiveExp, token.getText());
                node.addChild(child1);
                node.addChild(child2);
            } else {
                throw new Exception("invalid additive expression, expecting the right part.");
            }
        }
    }
    return node;
}

但也有问题:
比如 2+3+4,你会发现它的计算顺序变为了 2+(3+4) 后面 3+4 作为一个 additiveExpression 先被计算,然后才会和前面的 2 相加。改变了计算顺序。
image.png

消除左递归

上面右递归解决了无限递归的问题,但是又有了结合优先级的问题。
那么我们再改写一下左递归:

additiveExpression
  :   IntLiteral additiveExpression'
  ;

additiveExpression'
  :		'+' IntLiteral additiveExpression'
  | 	ε
  ;

文法中,ε(读作 epsilon)是空集的意思。
语法树 AST 就变成了下图左边的样子,虽然没有无限递归,但是按照前面思路,使用递归下降算法,结合性还是不对。
我们期望的应该是右边的 AST 树样子。那么怎么才能变成右边的样子呢?
image.png

这里我们插入一个知识点:
前面语法规则的表示方式成为:「巴科斯范式」,简称 BNF
我们把下面用正则表达式简化表达的方式,称为「扩展巴科斯范式 (EBNF)」
add -> mul (+ mul)*

那么我们把上面的表达式改写成 EBNF 形式,变为:

additiveExpression -> IntLiteral ('+' IntLiteral)*

这里写法的变化,就能让我们的算法逻辑产生巨大的变化。

重点:
前面左递归也好、右递归也好,变来变去都是递归调用,导致无限循环、结合性的问题。如果我们干掉递归,用循环来代替,就能按照我们期待的方式来执行了。
这里的区别是:前面递归计算过程是后序,把最后访问到的节点先计算,然后再一步步的返回;而循环迭代是前序,先计算再往后访问。

我们再写出计算逻辑:

private SimpleASTNode additive(TokenReader tokens) throws Exception {
    SimpleASTNode child1 = IntLiteral(tokens);  // 应用 add 规则
    SimpleASTNode node = child1;
    if (child1 != null) {
        while (true) {                              // 循环应用 add'
            Token token = tokens.peek();
            if (token != null && (token.getType() == TokenType.Plus)) {
                token = tokens.read();              // 读出加号
                SimpleASTNode child2 = IntLiteral(tokens);  // 计算下级节点
                node = new SimpleASTNode(ASTNodeType.Additive, token.getText());
                node.addChild(child1);              // 注意,新节点在顶层,保证正确的结合性
                node.addChild(child2);
                child1 = node;
            } else {
                break;
            }
        }
    }
    return node;
}

消除了递归,只有循环迭代。你可以和上面递归的代码对比下。

再提一个概念:「尾递归」
尾递归就是函数的最后一句是递归的调用自身,可以理解为先序。而这种尾递归通常都可以转化为一个循环语句。

四、执行代码

前面我们已经把一个语句转换为了一个 AST 树,接下来我们遍历这个语法树,就能实现计算求值了。
2+3+4 为例,简化后的语法树长这样:
image.png

遍历的伪代码如下:

evaluate(node) {
    if node.type == TYPE.ADD:
        left_res = evaluate(node.getChild(0))
        right_res = evaluate(node.getChild(1))
        return left_res + right_res
    else if node.type == TYPE.INT:
        return node.val
}

五、小结

✌️至此,我们实现了一个计算器。

  • 可以实现词法分析:对输入的文本拆分为一个一个的 token
  • 生成语法树:将 token 变为一个 AST 树
  • 计算求值:遍历 AST 树,就能得到最终的计算结果

后面你可以在此基础上进行扩展,增加更多的运算符。以及扩充为一个脚本语言解释器,添加变量赋值、计算等等操作咯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/523133.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

elementPlus el-table动态列扩展及二维表格

1、循环列数据源&#xff0c;动态生成列 <template><div><el-table ref"table" :data"pageData.tableData" stripe style"width: 100%"><el-table-column v-for"column in pageData.columns" :key"column.p…

linux虚拟机上安装,使用以及远程连接mysql

1. 安装mysql 5.7 1) 首先更新软件源 sudo apt-get update 2) 安装MySQL数据库软件 ​ sudo apt-get install mysql-server 3) 安装MySQL数据库管理软件​ sudo apt-get install mysql-client 4) 安装MySQL数据库客户端&#xff0c;用户访问数据库 sudo apt-get install…

大数据系列 | Kafka架构分析及应用

大数据系列 | Kafka架构分析及应用 1. Kafka原理分析2. Kafka架构分析3. Kafka的应用3.1. 安装Zookeeper集群3.2. 安装Kafka集群3.3. 生产者和消费者使用3.3.1. 生产者使用3.3.1. 消费者使用 4. Kafka Controller控制器 1. Kafka原理分析 Kafka是一个高吞吐量、 持久性的分布式…

【RealSense】Ubuntu20.04 安装 Intel RealSense ROS 并使用 D435i 测试

【RealSense】Ubuntu20.04 安装 Intel RealSense ROS 并使用 D435i 测试 1 本机环境2 安装流程3 存在的 bug3.1 Resource not found: rgbd_launch 1 本机环境 Ubuntu20.04ROS Noetic 2 安装流程 参考文档: Link 安装 Intel RealSense™ SDK 2.0&#xff0c;参考上一篇文章: L…

HTML基础知识详解(下)(如果想知道html的全部基础知识点,那么只看这一篇就足够了!)

前言&#xff1a;在上一篇文章中&#xff0c;我们已经学习完了超链接标签、列表标签和表格标签&#xff0c;但是我们还有一些标签没有学习&#xff0c;在这篇文章中&#xff0c;我们将学习剩余的标签。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页…

vue3+element-ui-plus的el-tree组件实现复选框形式下的单选功能,且禁用父级

实现效果图&#xff0c;一二级都是灰色的不可选&#xff0c;三级只能同时选中一个 <el-treev-model"selectedNode":data"deptOptions":props"{ label: title, children: children }" //自定义名称和子集的字段:render-after-expand"fal…

天府锋巢直播产业基地:打造电商直播产业先锋集群

天府锋巢直播产业基地&#xff0c;这座以科技金融服务、人才项目扶持、科技企业培育和产业生态链赋能为核心的成都直播产业园区&#xff0c;正积极招商引资&#xff0c;争做电商直播产业的先锋集群。 一、科技金融服务方面&#xff0c;天府锋巢直播产业基地针对科技型小微企业、…

部署k8s客户端,及docker私仓部署

1.部署一个docker私仓 mkdir /opt/docker/registry #配置仓库密码 mkdir /opt/docker/auth cd /opt/docker/auth htpasswd -Bbn admin admin > htpasswd#运行docker私仓服务&#xff0c;下面端口5000:5000 前面的5000对应本机端口可以自定义 docker run -itd \ -v /opt/d…

ios苹果ipa文件app内测分发有哪些操作流程

哈喽&#xff0c;大家好&#xff0c;咕噜淼淼又来和大家见面啦&#xff0c;在iOS应用开发过程中&#xff0c;进行内测分发是非常重要的一环&#xff0c;它能帮助开发者发现并修复应用中的问题&#xff0c;提升用户体验。上两期咱们一起探讨了一下App内测分发的目的及优势&#…

Spring之ApplicationListener实现监听原理

文章目录 ApplicationListener使用方式ApplicationListener实现原理1.引入并实例化时机2.作用时机3.发布事件&#xff0c;生效 总结 ApplicationListener使用方式 package com.cyl.listener;import org.springframework.context.ApplicationEvent; import org.springframework…

element-ui使用记录

element-ui的组件名就是类名 样式穿透&#xff08;用来修改没有类名的子组件样式&#xff09; 例如修改头部具名插槽的样式&#xff08;但是无法定位该元素&#xff09; 查看最后生成的html结构中对应的结构&#xff08;这里的头部有类名&#xff0c;可以直接对该类名进行样…

文件夹类型变无?别担心,数据恢复有高招!

在日常使用电脑的过程中&#xff0c;不少用户都遇到过这样一个令人头疼的问题&#xff1a;原本整齐有序的文件夹突然变成了“类型变无”的状态。这种情况让人措手不及&#xff0c;不仅影响了文件的正常访问&#xff0c;更可能导致重要数据的丢失。那么&#xff0c;文件夹类型变…

leetcode.203. 移除链表元素

题目 题意&#xff1a;删除链表中等于给定值 val 的所有节点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,6,3,4,5,6], val 6 输出&#xff1a;[1,2,3,4,5] 示例 2&#xff1a; 输入&#xff1a;head [], val 1 输出&#xff1a;[] 示例 3&#xff1a; 输入&#…

鸿蒙Native输出so动态库,并提供给第三方导入使用

前言&#xff1a; DevEco Studio版本&#xff1a;4.0.0.600 API:9 最近在学习鸿蒙的Native输出so动态库&#xff0c;下面就给大家分享下我的学习心得及在实现过程中遇到的问题。 实现需求&#xff1a;通过so库输出文本内容 “你好&#xff0c;鸿蒙&#xff01;” 参考资料…

蓝桥杯练习系统(算法训练)ALGO-959 P0705 集合运算

资源限制 内存限制&#xff1a;256.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 输入两个整数集合A、B&#xff0c;求出他们的交集、并集以及B在A中的余集。交集、并集和余集的计算都要求写成一个单独的函数。   输…

记Postman参数化

因为需要在WEB页面上处理部分数据&#xff0c;手动操作太慢&#xff0c;所以考虑使用接口方式处理&#xff0c;因急于使用&#xff0c;用Python Request的方式&#xff0c;写代码也来得慢&#xff0c;故采用Postman加外部文件参数化方式来实现。 接口请求是Post方式&#xff0c…

注意!今明两天广东等地仍有较强降雨

中央气象台监测显示 进入4月以来 我国江南、华南北部强降雨 接连而至 湖南、江西、浙江中南部 福建大部、广东中北部等地降雨量 较常年同期偏多1倍以上 上述地区部分国家观测站 日雨量突破4月历史极值 截至4月7日早晨 广东广州、惠州、清远 韶关、河源等地部分地区 …

2024/4/1—力扣—二叉树的最近公共祖先

代码实现&#xff1a; 思路&#xff1a; 递归判断左子树和右子树&#xff0c;查找p或者q是否在当前节点的子树上 1&#xff0c;在同一子树上&#xff0c;同一左子树&#xff0c;返回第一个找到的相同值&#xff0c;同一右子树上&#xff0c;返回第一个找到的相同值 2&#xff0…

关东升老师力作!四本编程宝典,带你畅游编程世界

&#x1f31f;《看漫画学C》&#xff1a;关东升老师以漫画的形式&#xff0c;让你在欢笑中轻松掌握C编程的核心知识。不再枯燥&#xff0c;不再难懂&#xff0c;让编程变得有趣又简单&#xff01; &#x1f3a8;《MATLAB科研绘图与学术图表绘制从入门到精通》&#xff1a;关东升…

JSON在线工具使用文档

功能支持 ctrls json格式化游览器本地保存ctrla ctrlc 自动检测选中范围是否是全选&#xff0c;然后按照格式化方式添加到粘贴板中json 粘贴JSON自动格式化json可视化修改json压缩复制json层级折叠json关键key 搜索(自动提示高亮)满足某些近视的可以自行调整字体大小, 并且会游…