笔记 | 编译原理L1

重点关注过程式程序设计语言编译程序的构造原理和技术

1 程序设计语言

1.1 依据不同范型

过程式(Procedural programming languages–imperative)	函数式(Functional programming languages–declarative)	逻辑式(Logical programming languages–declarative)	对象式(Object-oriented programming languages)
程序中指明如何完成一个计算任务	程序中指明要进行哪些计算	事实+推理规则	支持面向对象编程
FORTRAN, PASCAL, C	LISP, HASKELL, ML, OCAML, SCALA…	PROLOG	Smalltalk, Java, C++, Eiffel, Ruby
说明式语言(Declarative programming): 与上述命令式(Imperative language) 不同，没有控制结构，甚至没有赋值，仅有问题说明，或者说纯数学定义

1.2 依据不同转化方式

编译型语言	解释型语言	混合型语言
需通过编译器（compiler）将源代码编译成机器码，之后才能执行的语言。一般需经过编译（compile）、链接（linker）这两个步骤。编译是把源代码编译成机器码，链接是把各个模块的机器码和依赖库串连起来生成可执行文件。	不需要编译，相比编译型语言省了道工序，解释性语言在运行程序的时候才逐行翻译。	比如C#,C#在编译的时候不是直接编译成机器码而是中间码，.NET平台提供了中间语言运行库运行中间码，中间语言运行库类似于Java虚拟机。.net在编译成IL代码后，保存在dll中，首次运行时由JIT在编译成机器码缓存在内存中，下次直接执行（博友回复指出）。
优点：编译器一般会有预编译的过程对代码进行优化。因为编译只做一次，运行时不需要编译，所以编译型语言的程序执行效率高。可以脱离语言环境独立运行。	优点：有良好的平台兼容性，在任何环境中都可以运行，前提是安装了解释器（虚拟机）。灵活，修改代码的时候直接修改就可以，可以快速部署，不用停机维护。
缺点：编译之后如果需要修改就需要整个模块重新编译。编译的时候根据对应的运行环境生成机器码，不同的操作系统之间移植就会有问题，需要根据运行的操作系统环境编译不同的可执行文件。	缺点：每次运行的时候都要解释一遍，性能上不如编译型语言。
代表语言：C、C++、Pascal、swift	代表语言：JavaScript、Python、Erlang、PHP、Perl、Ruby	Java先生成字节码再在Java虚拟机中解释执行。

不同的程序设计语言机制(函数式、过程式、逻辑式、对象式)，需要采用不同的技术编写编译程序,过程式语言的编译是对象式语言编译的基础

1.3 另一种角度

动态类型语言（Dynamically Typed Language）	静态类型语言（Statically Typed）	强类型定义语言（Explicit type）	弱类型定义语言（Implicit type）
编译时不知道变量类型，运行时才决定，类型错误属于运行错误，运行时报错	编译时候决定变量，类型错误属于语法错误，编译器报错	偏向于不容忍隐式类型转换	偏向于容忍隐式类型转换

2 编译器概述

编译器(Compiler) 将某种语言(源语言)编写的程序翻译成语义等价的另一种语言(目标语言)编写的程序

image.png|700

依据目标程序的类型：

目标程序若是可执行的机器语言程序	目标程序若是汇编语言的程序
可以被用户调用，处理输入并产生输出。	则须经汇编器汇编后方可执行

编译器的重要任务之一是报告它在翻译过程中发现的源程序中的错误。

2.1 编译器的翻译包括哪些步骤

阅读并理解程序
准确地确定需要采取什么行动
弄清楚如何忠实地执行这些行动
指示计算机执行这些步骤

[[编译器概述.excalidraw|示例图]]

2.2 编译程序的伙伴程序

编辑器 (editor)	预处理器(preprocessor)	汇编程序(assembler)	连接程序(linker)	装入程序(loader)
除一般的文本编辑功能外，还可以对正在编辑的文本进行分析、提示、自动提供关键字匹配等功能；	删除源程序中的注释、执行宏替换以及包含文件的嵌入等	将编译程序生成的汇编代码汇编成机器代码	将不同的目标文件连接到一个可执行的文件中	将程序加载到内存中以便执行

3 编译器的组成

3.1 自然语言翻译过程总结

掌握源语言和目标语言：词法、语法和语义，翻译过程包括：

分析源句子是否正确	将句子翻译成目标语言
拼写，包括识别单词及其属性，依据源语言的语法建立语法结构，检查句子是否有意义	翻译每个语法部分，将其组合成有意义的目标语言句子

3.2 编译器组成模块

[!Note]- 分析部分

源程序 - 语法结构 - 中间表示
搜集源程序中的相关信息，放入符号表
分析、定位程序中可能存在的错误信息（语法、语义错误）
又称编译器的前端（front end），是于机器无关的部分

符号表管理	词法分析/扫描（lexical analysis, scanning）	语法分析	语义分析
记录源程序中使用的变量的名字，收集各种属性（名字的存储分配，类型，作用域，过程名字的参数数量、参数类型等等）	1.读入源程序的字符流，输出有意义的词素(lexeme)。基于词素，产生词法单元token： <token-name, attribute-value> 2.关于token：程序语言处理的最小单位，token-name由语法分析步骤使用，attribute-value指向相应的符号表条目，由语义分析/代码生成步骤使用	1.词法分析后，需要得到词素序列的语法结构 2.语法分析/解析（syntax analysis/parsing）:sentence是对单词的再次重组,程序设计语言规定了词法单元、语句的重组规则 — >语句的类别.	使用语法树和符号表中的信息，检查源程序是否满足语言定义的语义约束。同时收集类型信息，用于代码生成。类型检查，类型转换。
符号表可由编译器的各个步骤使用	程序语言规定了单词构成的规则和单词类别	根据各个词法单元的第一个分量来创建树形中间表示形式。通常是语法树（syntax tree/parse tree），指出了词法单元流的语法结构

[!Note]- 合成部分

根据符号表和中间表示构造目标程序
又称编译器的后端（back end），是于机器相关的部分

中间代码生成	代码优化	目标代码生成
根据语义分析的输出，生成类机器语言的中间表示	通过对中间代码的分析，改进中间代码，得到更好的目标代码（快、短、能耗低）	把中间表示形式映射到目标语言：（寄存器的分配，指令选择，内存分配）
三地址代码：每个指令最多包含三个运算分量	优化有具体的设计目标

3.3 编译器的趟（Pass）

趟（Pass）：以文件为输入输出单位的编译过程的个数，每趟可由一个或若干个步骤构成。就是对源程序或源程序的中间表示形式从头到尾扫描一次，并作加工处理，生成新的中间结果或目标程序。

可以词法分析、语法分析、语义分析等阶段各作为单独一趟
也可以词法分析作为语法分析的子程序
还可以整个编译程序一遍扫描完成

与编译器组成模块的关系：前者作为“步骤”是逻辑组织方式，“趟”和具体的实现相关

4 解释器

定义：解释器(Interpreter)：解释器直接利用用户提供的输入执行源程序中指定的操作。
解释过程中若发现错误，则返回修改源程序，修改后重新解释执行。
解释器与编译器的区别理解：解释器可以直接输出结果，而编译器最终的输出是一个目标程序，是把一种程序设计语言翻译成另外一种语言，编译器的重要任务之一是报告它在翻译过程中发现的源程序中的错误。

4.1 解释器与编译器的比较

二者比较：

相同点	区别
使用相同的实现技术	实现机制: 翻译 (程序 to 程序)vs. 解释(指令 to 指令序列)

二者特点：

解释器	编译器
可移植性好，支持交互式程序设计，边解释，边执行，错误诊断效果好	效率高，一次编译，多次运行，存储代价小，目标程序的执行速度比解释器快很多

二者结合的一种应用：Java

javac 前端编译器：先编译成字节码(bytecode, .class文件)
由JVM解释执行，可移植性好
JIT即时编译器（just-in-time compiling）
为了提高热点代码的执行效率，在运行时虚拟机将会把这些代码编译成与本地平台相关的机器码，并进行各层次的优化(判断热点代码的方法：基于采样的热点探测；基于计数器的热点探测)