【编译原理】1、python 实现一个 JSON parser:lex 词法分析、parser 句法分析

文章目录

  • 一、实现 JSON lexer(词法解析器)
  • 二、lex 词法分析
    • 2.1 lex string 解析
    • 2.2 lex number 解析
    • 2.3 lex bool 和 null 解析
  • 三、syntax parser 句法分析
    • 3.1 parse array 解析数组
    • 3.2 parse object 解析对象
  • 四、封装接口

一、实现 JSON lexer(词法解析器)

首先,把输入的 string 拆分为 tokens,过程中会忽略注释、空格。迭代解析字符串流,解析为基本的、非递归定义的语言结构,如正数、字符串、布尔文字。

最终期望实现的效果如下:

assert_equal(lex('{"foo": [1, 2, {"bar": 2}]}'),
             ['{', 'foo', ':', '[', 1, ',', 2, ',', '{', 'bar', ':', 2, '}', ']', '}'])

整体逻辑大概如下:

def lex(string):
    tokens = []

    while len(string):
        json_string, string = lex_string(string)
        if json_string is not None:
            tokens.append(json_string)
            continue

        # TODO: lex booleans, nulls, numbers

        if string[0] in JSON_WHITESPACE:
            string = string[1:]
        elif string[0] in JSON_SYNTAX:
            tokens.append(string[0])
            string = string[1:]
        else:
            raise Exception('Unexpected character: {}'.format(string[0]))

    return tokens

这里的目标是尝试匹配字符串、数字、布尔值和空值并将它们添加到标记列表中。如果这些都不匹配,请检查该字符是否为空格,如果是则将其丢弃。否则,如果它是 JSON 语法的一部分(如左括号),则将其存储为 token。如果字符/字符串与这些模式都不匹配,最后抛出异常。

二、lex 词法分析

整体框架如下:

def lex_string(string):
    return None, string


def lex_number(string):
    return None, string


def lex_bool(string):
    return None, string


def lex_null(string):
    return None, string


def lex(string):
    tokens = []

    while len(string):
        json_string, string = lex_string(string)
        if json_string is not None:
            tokens.append(json_string)
            continue

        json_number, string = lex_number(string)
        if json_number is not None:
            tokens.append(json_number)
            continue

        json_bool, string = lex_bool(string)
        if json_bool is not None:
            tokens.append(json_bool)
            continue

        json_null, string = lex_null(string)
        if json_null is not None:
            tokens.append(None)
            continue

        if string[0] in JSON_WHITESPACE:
            string = string[1:]
        elif string[0] in JSON_SYNTAX:
            tokens.append(string[0])
            string = string[1:]
        else:
            raise Exception('Unexpected character: {}'.format(string[0]))

    return tokens

2.1 lex string 解析

对于该lex_string函数,要点是检查第一个字符是否是引号。如果是,则迭代输入字符串,直到找到结束引号。

  • 如果没有找到初始 quote,返回 None 和原始列表。
  • 如果找到初始引号和结束引号,返回引号内的字符串以及未检查的输入字符串的其余部分。
def lex_string(string):
    json_string = ''

    if string[0] == JSON_QUOTE:
        string = string[1:]
    else:
        return None, string

    for c in string:
        if c == JSON_QUOTE:
            return json_string, string[len(json_string)+1:]
        else:
            json_string += c

    raise Exception('Expected end-of-string quote')

2.2 lex number 解析

迭代输入,直到找到不能属于数字的字符。

  • 如果已经找到了字符,则返回 float 或 int
  • 否则,返回 None。
def lex_number(string):
    json_number = ''

    number_characters = [str(d) for d in range(0, 10)] + ['-', 'e', '.']

    for c in string:
        if c in number_characters:
            json_number += c
        else:
            break

    rest = string[len(json_number):]

    if not len(json_number):
        return None, string

    if '.' in json_number:
        return float(json_number), rest

    return int(json_number), rest

2.3 lex bool 和 null 解析

def lex_bool(string):
    string_len = len(string)

    if string_len >= TRUE_LEN and string[:TRUE_LEN] == 'true':
        return True, string[TRUE_LEN:]
    elif string_len >= FALSE_LEN and string[:FALSE_LEN] == 'false':
        return False, string[FALSE_LEN:]

    return None, string


def lex_null(string):
    string_len = len(string)

    if string_len >= NULL_LEN and string[:NULL_LEN] == 'null':
        return True, string[NULL_LEN:]

    return None, string

到现在为止, lex 就完成了,完整源码见 https://github.com/eatonphil/pj/blob/master/pj/lexer.py

三、syntax parser 句法分析

句法分析的基本工作是:迭代 一维 的 tokens 数组,匹配为一组组的 token 对。匹配失败时,期望能报错:用户实际的输入,和期望的输入。

对于 JSON parser,就是解析 lex() 函数的结果,匹配为若干 objects、lists、plain values 等。

期望的效果如下:

tokens = lex('{"foo": [1, 2, {"bar": 2}]}')
assert_equal(tokens,
             ['{', 'foo', ':', '[', 1, ',', 2, '{', 'bar', ':', 2, '}', ']', '}'])
assert_equal(parse(tokens),
             {'foo': [1, 2, {'bar': 2}]})

基本框架如下:

def parse_array(tokens):
    return [], tokens

def parse_object(tokens):
    return {}, tokens

def parse(tokens):
    t = tokens[0]

    if t == JSON_LEFTBRACKET: # [
        return parse_array(tokens[1:])
    elif t == JSON_LEFTBRACE: # {
        return parse_object(tokens[1:])
    else:
        return t, tokens[1:] # 解析出 t,并返回除去 t 之外剩余的部分

该词法分析器和解析器之间的一个关键结构差异是词法分析器返回一个一维标记数组。解析器通常以递归方式定义并返回递归的树状对象。由于 JSON 是一种数据序列化格式而不是一种语言,因此解析器应该生成 Python 中的对象,而不是语法树,您可以在语法树上执行更多分析(或者在编译器的情况下生成代码)。

而且,词法分析独立于解析器进行的好处是,这两段代码都更简单并且只涉及特定元素。

3.1 parse array 解析数组

解析数组,就是解析数组成员,并期望它们之间有逗号标记或指示数组结尾的右括号。

def parse_array(tokens):
    json_array = []

    t = tokens[0]
    if t == JSON_RIGHTBRACKET: # ]   表示第一个字符就直接遇到 ] 了,即数组结尾了
        return json_array, tokens[1:]

    while True:
        json, tokens = parse(tokens) # 解析出一项数组的内容
        json_array.append(json) # 追加到 json_array 变量中

        t = tokens[0] # 下一个待解析的字符
        if t == JSON_RIGHTBRACKET: # ]
            return json_array, tokens[1:] # 结束匹配
        elif t != JSON_COMMA: # , 数组各项元素之间应通过逗号分隔
            raise Exception('Expected comma after object in array')
        else: # t 为 逗号,则继续循环处理后续字符 tokens[1:]
            tokens = tokens[1:]

    raise Exception('Expected end-of-array bracket')

3.2 parse object 解析对象

解析对象就是解析一个键值对,内部用冒号分隔,外部用逗号分隔,直到到达对象的末尾。

def parse_object(tokens):
    json_object = {}

    t = tokens[0]
    if t == JSON_RIGHTBRACE: # }
        return json_object, tokens[1:]

    while True:
    	  # 期望 json key 是 字符串, 例如 "A": 1.123
        json_key = tokens[0] # 即 json_key = A
        if type(json_key) is str:
            tokens = tokens[1:]
        else:
            raise Exception('Expected string key, got: {}'.format(json_key))

	      # 期望用冒号分隔
        if tokens[0] != JSON_COLON:
            raise Exception('Expected colon after key in object, got: {}'.format(t))

        json_value, tokens = parse(tokens[1:])

        json_object[json_key] = json_value

        t = tokens[0]
        if t == JSON_RIGHTBRACE:
            return json_object, tokens[1:]
        elif t != JSON_COMMA:
            raise Exception('Expected comma after pair in object, got: {}'.format(t))

        tokens = tokens[1:]

    raise Exception('Expected end-of-object brace')

至此,parser 就完成了,源码详见 https://github.com/eatonphil/pj/blob/master/pj/parser.py

四、封装接口

为了提供理想的接口,可以用 from_string 包装 lex 和 parse 函数。

def from_string(string):
    tokens = lex(string)
    return parse(tokens)[0]

完整源码见 https://github.com/eatonphil/pj

一些解析器选择在一个阶段中实现词法分析和句法分析。对于某些语言,这可以完全简化解析阶段。或者,在 Common Lisp 等更强大的语言中,它可以允许使用读取器宏一步动态扩展词法分析器和解析器,详见 https://gist.github.com/chaitanyagupta/9324402。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/444466.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

时间感知自适应RAG(TA-ARE)

原文地址:Time-Aware Adaptive RAG (TA-ARE) 2024 年 3 月 1 日 介绍 随着大型语言模型(LLM)的出现,出现了新兴能力的概念。前提或假设是LLMs具有隐藏的和未知的能力,等待被发现。企业家们渴望在LLMs中发现一些无人知晓…

Linux网络基础2之协议

(。・∀・)ノ゙嗨!你好这里是ky233的主页:这里是ky233的主页,欢迎光临~https://blog.csdn.net/ky233?typeblog 点个关注不迷路⌯▾⌯ 目录 1.协议 1.序列化与反序列换 2.协议定制 二…

LLM实施的五个阶段

原文地址:Five Stages Of LLM Implementation 大型语言模型显着提高了对话式人工智能系统的能力,实现了更自然和上下文感知的交互。这导致各个行业越来越多地采用人工智能驱动的聊天机器人和虚拟助手。 2024 年 2 月 20 日 介绍 从LLMs的市场采用情况可以…

armv8/armv9 MMU深度学习

目录 1、MMU概念介绍2、虚拟地址空间和物理地址空间2.1、(虚拟/物理)地址空间的范围2.2、物理地址空间有效位(范围)2.2.1、页表翻译相关寄存器的配置 3、Translation regimes4、地址翻译/几级页表?4.1、思考:页表到底有几级?4.2、以4KB granu…

【数据通信】数据通信基础知识---信号

1. 信息、数据、信号 信息是人们通过施加于数据的一些规定而赋予数据的特定含义(ISO定义)通信就是在信源和信宿之间传递信息。 信息和消息的关系:消息中包含信息,消息不等于信息。 消息所包含信息的多少,与在收到消息…

前端框架的发展历程

文章目录 前言 一、静态页面时代 二、JavaScript的兴起 三、jQuery的出现 四、前端框架的崛起 1.AngularJS 2.React 3.Vue.js 五、面向组件化的发展趋势 总结 前言 前端框架的发展史就是一个不断进化的过程,它的发展和进化一定程度…

你还可以通过“nrm”工具,来自由管理“npm”的镜像

你还可以通过“nrm”工具,来自由管理“npm”的镜像 nrm(npm registry manager)是npm的镜像管理工具,有时候国外的资源太慢,使用这个就可以快速地在npm源间切换。 1.安装nrm 在命令行执行命令,npm install…

数字化转型导师坚鹏:科技金融政策、案例及数字化营销

科技金融政策、案例及数字化营销 课程背景: 很多银行存在以下问题: 不清楚科技金融有哪些利好政策? 不知道科技金融有哪些成功案例? 不知道科技金融如何数字化营销? 课程特色: 以案例的方式解读原…

Matlab|10节点潮流计算程序(通用性强)

主要内容 潮流计算程序matlab 牛拉法 采用matlab对10节点进行潮流计算,采用牛拉法,程序运行可靠,牛拉法实现通用性强,可替换参数形成其他节点系统的潮流计算程序。 下载链接

探索React中的类组件和函数组件

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

深入浅出计算机网络 day.1 概论① 信息时代的计算机网络

我想, 我不会暗下来的, 生命是周而复始的橙黄橘绿时 —— 24.3.9 内容概述 计算机网络的各类应用 计算机网络带来的负面问题 我国互联网发展情况 一、计算机网络的各类应用 1.信息浏览和发布 2.通信和交流 3.休闲和娱乐 4.资源共享…

数据库-第十一章 并发控制【期末复习|考研复习】

前言 总结整理不易,希望大家点赞收藏。 给大家整理了一下数据库系统概论中的重点概念,以供大家期末复习和考研复习的时候使用。 参考资料是王珊老师和萨师煊老师的数据库系统概论(第五版)。 数据库系统概论系列文章传送门: 第一章 绪论 第二/…

UE5.2 SmartObject使用实践

SmartObject是UE5新出的一项针对AI的功能,可为开发者提供如公园长椅、货摊等交互对象的统一外观封装,如UE的CitySample(黑客帝国Demo)中就运用到了SmartObject。 但SmartObject实践起来较为繁琐,主要依赖于AI及行为树…

LeetCode-1004. 最大连续1的个数 III

每日一题系列(day 20) 前言: 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 &#x1f50…

ActiveRAG—主动学习

原文地址:ActiveRAG — Active Learning 2024 年 2 月 26 日 大型语言模型(LLM)的出现开创了对话式人工智能的新时代。这些模型可以生成非常类似人类的文本,并且比以往更好地进行对话。然而,他们仍然面临着仅仅依靠预先…

浅析开源内存数据库Fastdb

介绍: Fastdb是免费开源内存数据库,其优秀的性能,和简洁的C代码,让我学习使用过程中收益颇多,但是国内中文相关研究的文章相当稀少,外文我查询相当不便。有兴趣的朋友可以通过以下网站访问:Mai…

Groovy语言

1 Groovy介绍 1.1 Groovy介绍 Groovy是一种编程语言,它结合了Java的强大功能和脚本语言的简洁性。它具有动态类型、易读的语法、与Java的紧密集成、脚本编程能力、强大的闭包等特点。 1.2 Groovy SQL介绍 Groovy SQL是 Groovy 编程语言的一部分,用于…

你应该打好你的日志,起码避免被甩锅

大家好,我是蓝胖子,相信大家或多或少都有这样的经历,当你负责的功能出现线上问题时,领导第一时间便是找到你询问原因,然而有时问题的根因或许不在你这儿,只是这个功能或许依赖了第三方或者内部其他部门,这个…

Spring Boot 自动装配的原理!!!

SpringBootApplication SpringBootConfiguration:标识启动类是一个IOC容器的配置类 EnableAutoConfiguration: AutoConfigurationPackage:扫描启动类所在包及子包中所有的组件,生…

Mint_21.3 drawing-area和goocanvas的FB笔记(七)

FreeBASIC gfx 基本 graphics 绘图 8、ScreenControl与屏幕窗口位置设置 FreeBASIC通过自建屏幕窗口摆脱了原来的屏幕模式限制,既然是窗口,在屏幕坐标中就有它的位置。ScreenControl GET_WINDOW_POS x, y 获取窗口左上角的x, y位置;ScreenC…