ANTLR4规则解析生成器(一):入门

文章目录

      • 1 什么是ANTLR4
      • 2 为什么需要ANTLR4
      • 3 环境搭建
      • 4 官方示例
        • 4.1 编写语法规则文件
        • 4.2 生成语法解析器
        • 4.3 基于SDK实现逻辑
      • 5 总结

1 什么是ANTLR4

ANTLR是ANother Tool for Language Recognition的缩写,它是一个强大的用于读取、处理、执行和翻译结构化文本或二进制文件的语法分析器生成器,广泛用于构建语言、工具和框架,通过语法描述规则,它能够生成一个可以遍历解析树的解析器。ANTLR4是ANTLR的第4个版本。

2 为什么需要ANTLR4

以一个计算器的例子来说明,当我们需要开发一个计算器程序时,第一步就是要确认支持的边界,也就是要确认支持哪些运算,例如,假设只需要支持整数的四则运算,且不支持括号,也就是只支持1+2*3等简单的计算。然后就可以开始开发,开发的重点就变成对算式的解析,还需要处理运算符的优先级。在通常的书籍中,会基于栈和队列实现,并且需要自行处理运算符的优先级:复杂计算器——四则运算表达式求值(中缀转后缀表达式。而使用ANTLR4就可以将算式的解析和实现分离,ANTLR4会将算式解析为语法树,然后提供遍历的机制去实现运算,因此,我们的代码就只需要实现运算即可。

简单来说,ANTLR4就是一个生成词法分析器和语法分析器的生成器,能够解析文本和二进制,解析后生成语法树,然后基于不同语言的SDK遍历该语法树,实现对应的逻辑。

使用ANTLR4通常分成三步:

  • 编写语法规则文件(规则文件以g4为后缀),在规则文件中使用自顶向下的形式描述要解析的语法的格式
  • 使用antlr4将规则文件转换成对应语言的语法解析代码
  • 使用对应语言的SDK提供的函数,遍历语法树

3 环境搭建

  • 安装java:建议安装比较高的版本,这里安装的是jdk17
  • 安装虚拟环境:pip3 install virtualenv
  • 创建虚拟环境并进入:virtualenv myenv && . myenv/bin/activate
  • 安装antlr4:pip install antlr4-tools
  • 安装对应语言的运行时库:对于python而言,只支持python3,安装antlr4-python3-runtime

这里面主要要注意的就是java的版本,不能用1.6或者1.8等比较低的版本。

如果使用vscode进行开发,可以安装ANTLR4 grammar syntax support插件;如果使用pycharm开发,可以安装ANTLR v4插件。

4 官方示例

4.1 编写语法规则文件
grammar expr;
prog:   (expr NEWLINE)* ;
expr:   expr ('*'|'/') expr
    |   expr ('+'|'-') expr
    |   INT
    |   '(' expr ')'
    ;
NEWLINE : [\r\n]+ ;
INT     : [0-9]+ ;

语法规则文件是基于正则表达式并且从上到下的语法描述文件,很类似于编译原理里面的词法分析和语法分析。

  • 除了grammer所在的行,每个分号结尾的部分都是描述一个规则
  • grammer:声明一个语法的名称,名称为expr,该名称与文件名一致
  • prog:整个规则的总体的描述,prog在这里也只是个名字,没有什么特殊含义,该规则的含义是,若干个(expr NEWLINE)
  • expr:描述prog中的expr表达式,它是一种递归的形式,表达式有4种情况:表达式之间的乘除、表达式之间的加减、INT、表达式可以使用括号
  • NEWLINE:若干换行符
  • INT:若干数字组成

因此,上面就是一个计算器的语法描述文件,该计算器只支持整数的四则运算,并且可以通过括号调整优先级。

4.2 生成语法解析器

将上述语法文件保存为expr.g4,然后使用antlr4工具生成语法解析器:

antlr4 -Dlanguage=Python3 expr.g4

就会在当前目录下生成一些python程序和文件:

  • exprLexer.py:词法分析
  • exprListener.py:继承自ParseTreeListener的空类exprListener
  • exprParser.py:语法分析
4.3 基于SDK实现逻辑

基于上面生成的类,然后结合antlr4提供的api,就可以得到antlr4为我们生成的AST(抽象语法树),相当于我们只使用antlr4为我们解析表达式,但是具体的计算逻辑是需要编写代码去遍历AST。antlr4提供了两种方式遍历AST,一种是listener,另一种是visitor,默认是listener。

例如,当给定表达式为1+2*3时,会生成如下的一棵AST树:

在这里插入图片描述

# Listener.py
from grammer.exprListener import exprListener
from grammer.exprParser import exprParser

class Listener(exprListener):
    def __init__(self):
        self.result = {}

    # Enter a parse tree produced by exprParser#prog.
    def enterProg(self, ctx:exprParser.ProgContext):
        pass

    # Exit a parse tree produced by exprParser#prog.
    def exitProg(self, ctx:exprParser.ProgContext):
        pass

    # Enter a parse tree produced by exprParser#expr.
    def enterExpr(self, ctx:exprParser.ExprContext):
        pass

    # Exit a parse tree produced by exprParser#expr.
    def exitExpr(self, ctx:exprParser.ExprContext):
        if ctx.getChildCount() == 3:
            if ctx.getChild(0).getText() == "(":
                self.result[ctx.getText()] = self.result[ctx.getChild(1).getText()]
            else:
                opc = ctx.getChild(1).getText()
                v1 = self.result[ctx.getChild(0).getText()]
                v2 = self.result[ctx.getChild(2).getText()]
                if opc == "+":
                    self.result[ctx.getText()] = v1 + v2
                elif opc == "-":
                    self.result[ctx.getText()] = v1 - v2
                elif opc == "*":
                    self.result[ctx.getText()] = v1 * v2
                elif opc == "/":
                    self.result[ctx.getText()] = v1 / v2
                else:
                    ctx.result[ctx.getText()] = 0
        elif ctx.getChildCount() == 2:
            opc = ctx.getChild(0).getText()
            if opc == "+":
                v = self.result[ctx.getChild(1).getText()]
                self.result[ctx.getText()] = v
            elif opc == "-":
                v = self.result[ctx.getChild(1).getText()]
                self.result[ctx.getText()] = - v
        elif ctx.getChildCount() == 1:
            self.result[ctx.getText()] = int(ctx.getChild(0).getText())

继承exprListener创建我们自己的Listener,需要基于该Listener类遍历生成的AST,在这里只修改了exitExpr函数,从字面意思理解,该函数就是在遍历AST时离开某个节点时执行的函数,此时可以根据当前节点的孩子的个数执行不同的计算逻辑。

from antlr4 import CommonTokenStream
from antlr4 import ParseTreeWalker
from antlr4.InputStream import InputStream
from antlr4.Token import CommonToken

from grammer.exprParser import exprParser
from grammer.exprLexer import exprLexer
from Listener import Listener

if __name__ == '__main__':
    input_stream = InputStream("1+2*3\n")
    lexer = exprLexer(input_stream)
    token_stream = CommonTokenStream(lexer)

    parser = exprParser(token_stream)

    tree = parser.prog()
    listener = Listener()
    walker = ParseTreeWalker()
    walker.walk(listener, tree)

    print(listener.result)

5 总结

在实现一种语言或者规则时,首先需要解析语言或者规则,然后再对其中的单词或者语句进行处理,因此,在实际开发过程中,需要对输入进行分割然后再分析语义,而通过antlr4,可以自定义语言或者规则的构成,然后就可以通过antlr4的库得到一个AST的树,再利用antlr4的api遍历该树实现其他的业务逻辑,因此,基于antlr4可以简化我们的程序,帮助实现词法和语法的分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/372634.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

你了解引用和指针的区别吗?

前言: 在计算机编程中,引用和指针是两个重要的概念,它们用于处理内存中的数据。它们在很多编程语言中都有相应的支持,例如C和C。对于c语言来说,指针是最重要的概念之一,想要学好c语言就难以绕开对于指针的学…

想上岸?有这个神器足矣!

之前说的给大家一个大惊喜!今天终于迎来了见证时刻! 我们的官网上线啦!!! 截止目前我已经做了200套名校真题,100所择校分析,150篇分院校重点勾画,以及非常非常多的文章&#xff0c…

简单的JavaScript去下载转换为Base64的PDF文件

新建一个文件,内容填写如下,然后保存为 .html 类型的文件 再用浏览器打开,就会是下面这样子: 图一红色textarea里面,可以将PDF文件转换成BASE64位后的内容贴进去,点击下载时,就可以直接下载成PD…

Matlab数字图像处理——图像复原与滤波算法应用方法

图像处理领域一直以来都是计算机科学和工程学的一个重要方向,图像复原则是其中一个重要的研究方向之一。图像复原旨在通过运用各种滤波算法,对图像进行去噪、恢复和改善,以提高图像的质量和可视化效果。在本文中,我们将介绍如下内…

WordPress主题YIA如何将首页的置顶小工具改为站长推荐小工具?

YIA主题有“置顶推荐”小工具,首页文章列表页有置顶功能,可在YIA主题设置 >> 列表 >> 首页-最新发布 >> 显示置顶文章中开启或关闭。如果将“置顶推荐”小工具添加到“首页顶栏”,同时也开启首页最新发布的“显示置顶文章”…

kernel32.dll文件缺失要如何解决?科学分享kernel32.dll文件

面对 kernel32.dll 文件丢失的问题,别担心!这篇文章将为您提供多种有效的解决策略,不论您是电脑专家还是刚入门的新手,我们的指南都能帮到您。详细的步骤和每种方法的具体注意点都在这里,按照指南操作,您将…

【c/python】GtkGrid

一、GtkGrid GtkGrid 是 GTK (GIMP Toolkit) 中的一个基础容器构件(widget),它可以用来安排其他构件在一个灵活的多行多列的网格中。每个加入网格的构件都可以占据一个或多个行和列。由于 GtkGrid 提供了在二维空间中安排构件的方式&#xf…

Jenkins配置http请求github,发布release

学无止境,气有浩然! Jenkins配置http请求github,发布release 前言Jenkins配置github配置在这里插入图片描述 打完收工! 前言 工作中进行了github迁移,原先的gitlab中配置的Jenkins的CI/CD步骤需要发布到Github发布release版本&am…

【发票识别】新增针对图片发票的识别(升级中)

说明 为了完善发票识别的功能,目前发票识别支持发票图片格式的识别,增加可用性。 体验 体验地址:https://invoice.behappyto.cn/invoice-service/ 体验地址上面有示例的发票,可以下载上传识别或者复制url地址进行识别。 技术栈…

Windows下Node.js下载安装及环境变量配置教程

Windows下Node.js下载安装及环境变量配置教程 安装版本:node-v18.19.0-x64.msi 文章目录 Windows下Node.js下载安装及环境变量配置教程一、Node.js和NPM简介二、下载地址三、安装步骤四、环境配置五、安装淘宝镜像总结 一、Node.js和NPM简介 1、Node.js &#xf…

产品经理学习-产品运营《如何策划一场活动》

互联网活动怎么玩 最常听到的有: 注册有奖、拉新有奖 签到积分 秒杀、大促、神券 和过去相比,现在活动的特征变化: 线上化、形式丰富、覆盖人群广、即时性、效果可控 什么是活动运营 通过策划不同形式的活动,进行有效的资源和…

渗透测试练习题解析 2(CTF web)

题目均来自 BUUCTF 1、[极客大挑战 2019]Upload 1 考点:文件上传漏洞 进入靶场 一看就知道是考察文件上传漏洞,看源码有没有敏感信息 没有什么敏感信息,那我们试着按要求传一张图片看看结果,但是传了 png、jpg 类型的图片后发现上…

云服务器也能挂游戏 安卓模拟器

安卓模拟器云服务器 什么是BlueStacks模拟器主机? 特网科技基于Windows操作系统预装了BlueStacks Android模拟器您能够通过Android模拟器安装Android应用程序、如APP游戏、安卓APP、APP游戏等。 我可以在主机上安装应用程序吗? 你可以在BlueStacks模…

代码随想录算法训练营第二十七天|39. 组合总和、40. 组合总和 II、131. 分割回文串。

39. 组合总和 题目链接:组合总和 题目描述: 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 任意顺序 返回这…

Docker部署Teedy文件系统

目录 效果 安装 1.创建目录 2.创建并启动容器 使用 1.引导页 2.新建一个文档 3.搜索 效果 安装 1.创建目录 mkdir -p /opt/teedy/data && cd /opt/teedy 2.创建并启动容器 docker run -d \ --restart always \ -p 10045:8080 \ -e DOCS_BASE_URLhttp://…

计算机网络——03网络核心

网络核心 网络核心 网络核心:路由器的网络状态基本问题:数据怎样通过网络进行传输 电路交换:为每个呼叫预留一条专有电路分组交换 将要传送的数据分成一个个单位:分组将分组从一个路由器传到相邻路由器(hop&#xff…

Nicn的刷题日常之 有序序列判断

目录 1.题目描述 描述 输入描述: 输出描述: 示例1 示例2 示例3 2.解题 1.题目描述 描述 输入一个整数序列,判断是否是有序序列,有序,指序列中的整数从小到大排序或者从大到小排序(相同元素也视为有序)。 数据…

Java Collection 的多种遍历操作

Java Collection 的多种遍历操作 package com.zhong.collection;import javax.swing.plaf.IconUIResource; import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;public class CollectionFor {public static void main(String[] args) {Coll…

【技术支持】在使用object-fit: cover对大图进行缩放时,图片锯齿化的解决

在chrome浏览器是这样,火狐就正常 1,在使用object-fit: cover时,图片中电线显示明显异常 2,在使用object-fit: cover时,并且禁用Chrome的GPU Rasterization

【入门篇】RedHat 8 打开终端的快捷方式-红帽 RHEL 8如何设置快捷方式

0、序 红帽系统8版本中,终端默认未分配快捷键,需要点击左上角再依次点击终端进行打开,对经常使用终端的用户来说,比较不方便。本文记录添加终端打开快捷键过程。 1、环境 Red Hat Enterprise Linux release 8.4 (Ootpa) 2、默认…