PL/pgSQL是Vastbase提供的一种过程语言,在普通SQL语句的使用上增加了编程语言的特点,可以用于创建函数、存储过程、触发器过程以及创建匿名块等。
本文介绍Vastbase中PL/pgSQL的执行流程,包括PL/pgSQL的编译与运行。
1、编译
PL/pgSQL的编译部分核心是解释出可以被内核识别的变量、命名空间和语句节点链表。
1.1 编译上下文
typedef struct PLpgSQL_compile_context {
struct PLpgSQL_datum** plpgsql_Datums;
struct PLpgSQL_function* plpgsql_curr_compile;
struct PLpgSQL_nsitem* ns_top;
}
PLpgSQL_compile_context结构用来保存编译期间的上下文信息,其核心成员是plpgsql_Datums、ns_top和plpgsql_curr_compile。
- plpgsql_Datums:保存识别出的变量,是一个数组
- ns_top:保存识别出的命名空间,是一个链表
- plpgsql_curr_compile:保存识别出的语句节点链表
1.2 变量数组
typedef struct PLpgSQL_datum { /* Generic datum array item */
int dtype; /* 变量类型 */
int dno; /* 变量在变量数组的下标,即变量是变量数组的第几个元素 */
} PLpgSQL_datum;
PL/pgSQL支持多种类型的变量,包括普通的变量、表达式、复合类型和数组类型等。不同的变量类型用相应的结构表示,例如:普通变量使用PLpgSQL_var表示,表达式使用PLpgSQL_expr表示等。
Vastbase使用面向对象的思想,设计PL/pgSQL的变量,PLpgSQL_datum结构表示变量的抽象父类,共有4个结构体成员,PLpgSQL_var和PLpgSQL_expr等表示子类,子类结构的前4个成员与PLpgSQL_datum结构保持一致。
PL/pgSQL变量的来源主要有:
- 函数的入参
- 声明部分声明的变量
- 内置变量,例如found变量和游标变量等
1.3 命名空间链表
typedef struct PLpgSQL_nsitem { /* Item in the compilers namespace tree */
int itemtype; /* 命名空间类型 */
int itemno; /* 命名空间关联的变量在变量数组的下标 */
struct PLpgSQL_nsitem* prev; /* 指向上一个命名空间 */
char name[FLEXIBLE_ARRAY_MEMBER]; /* 命名空间字符串 */
} PLpgSQL_nsitem;
PL/pgSQL里,命名空间(namespace)表示变量或标签的名称。主要有以下类型的命名空间:
PL/pgSQL在运行语句时,通过标识符查找命名空间链表,若查找到命名空间,则根据命名空间的itemno在变量数组里获取变量,进行相应的操作。
1.4 语法解析
Vastbase的PL/pgSQL有独立的词法分析和语法分析器。PL/pgSQL主要有两种大类的块:声明块和语句块。
声明块
声明块是以DECLARE关键字作为开始标记,以BEGIN关键字作为结束标记的语句块。
在声明块内可以声明变量和定义类型。新定义的类型会被记录到系统表元信息中。声明的变量会被记录到变量数组和命名空间链表里,对于复合类型的变量,PL/pgSQL会对其进行展开,即会创建${变量名}.${属性}这样的变量和命名空间。
语句块
语句块是指以BEGIN关键字作为开始标记,以END关键字作为结束标记的语句块。
语句块内可以嵌套新的声明块和语句块。内层语句块可以访问外层声明块的类型和变量,反之不允许。
语句块以分号作为语句分隔符,每个语句都会被解析为不同类型的语句节点。
typedef struct { /* One EXCEPTION ... WHEN clause */
PLpgSQL_condition* conditions;
List* action; /* List of statements */
} PLpgSQL_exception;
typedef struct PLpgSQL_stmt_block {
List* body; /* List of statements */
PLpgSQL_exception_block* exceptions;
} PLpgSQL_stmt_block;
PL/pgSQL使用PLpgSQL_stmt_block结构表示经过语法解析后的PL/pgSQL语句块,PLpgSQL_stmt_block结构有两个核心的成员,分别是body和exceptions。
body是语句块内正常运行的语句节点链表。
exceptions是PLpgSQL_exception类型变量链表。
当语句节点链表内的语句发生异常时,进入exceptions成员表示的异常处理流程。PLpgSQL_exception结构里,conditions成员表示该异常处理块的异常类型,action成员就是该类型异常的处理语句节点链表,当运行时发生了匹配conditions的异常,则执行该异常的action进行异常处理。
PL/pgSQL支持的语句类型比较丰富,以下是一些常用的语句类型归类:
- 嵌套语句块:PLPGSQL_STMT_BLOCK
- 赋值语句:PLPGSQL_STMT_ASSIGN
- 条件分支:PLPGSQL_STMT_IF/PLPGSQL_STMT_GOTO/PLPGSQL_STMT_CASE
- 循环控制:PLPGSQL_STMT_LOOP/PLPGSQL_STMT_WHILE/PLPGSQL_STMT_FORI/PLPGSQL_STMT_FORS/PLPGSQL_STMT_FORC/PLPGSQL_STMT_FOREACH_A/PLPGSQL_STMT_EXIT
- 返回语句:PLPGSQL_STMT_RETURN/PLPGSQL_STMT_RETURN_NEXT/PLPGSQL_STMT_RETURN_QUERY
- 打印输出:PLPGSQL_STMT_RAISE
- 执行语句:PLPGSQL_STMT_EXECSQL/PLPGSQL_STMT_DYNEXECUTE/PLPGSQL_STMT_DYNFORS/PLPGSQL_STMT_PERFORM
- 游标相关:PLPGSQL_STMT_OPEN/PLPGSQL_STMT_FETCH/PLPGSQL_STMT_CLOSE
- 事务控制:PLPGSQL_STMT_COMMIT/PLPGSQL_STMT_ROLLBACK/PLPGSQL_STMT_SAVEPOINT
- 其他:PLPGSQL_STMT_GETDIAG/PLPGSQL_STMT_NULL/PLPGSQL_STMT_SIGNAL/PLPGSQL_STMT_RESIGNAL
1.5 编译缓存
PL/pgSQL的编译是一个耗时操作,每次运行前都重新编译对性能来说影响非常大。为解决这个问题,对于使用PL/pgSQL定义的函数/存储过程,Vastbase 把编译结果缓存在会话的内存中。在会话运行期间,如果函数/存储过程的定义没有发生变化,则只需要编译一次,后续函数/存储过程的运行会从缓存获取编译结果。
2、运行
PL/pgSQL运行依赖SPI(Server Programming Interface)机制,把需要运行的SQL语句发送到内核模块中,内核模块通过预定义的钩子函数对语句中引用的变量进行解析处理。
2.1 SPI机制
SPI机制提供了一系列接口连接并访问数据库内核,
PLPGSQL_STMT_EXECSQL语句节点的工作流程大致如下图:
- 流程说明
- SPI_connect:PL/pgSQL语句块执行前,连接到内核服务端,整个语句块的执行只需要连接一次
- SPI_prepare_params:发送待执行的sql语句到服务端,获取执行计划
- setup_param_list:设置语句的参数
- SPI_execute_plan_with_paramlist:发送参数到服务的,执行语句
- SPI_finish:断开与内核服务端的连接,释放资源
2.2 执行语句块
PL/pgSQL经过编译后,编译上下文保存了变量数组、命名空间链表和语句节点链表。如下图,执行语句实际上就是遍历语句节点链表,根据不同的语句节点类型,调用不同的处理函数。
2.3 异常处理
如下图所示,异常处理块实际上是通过PG_TRY/PG_CATCH/PG_END_TRY实现。
当调用exec_stmt_block执行的语句块时,如果PLpgSQL_stmt_block的exceptions成员不为空,即定义了异常处理块,则使用PG_TRY/PG_CATCH/PG_END_TRY异常处理工具进行exec_stmts(block→body)的调动,捕获异常后,调用exec_stmts(exception→action)进行异常处理。
2.4 参数处理
PL/pgSQL内允许语句内引用声明块内声明的变量或函数入参,代码如下:
CREATE TABLE t_test(id INT);
DECLARE
id INT;
BEGIN
id := 1;
INSERT INTO t_test values (id);
END;
/
第6行的INSERT语句会被语法解析器解析成PLPGSQL_STMT_EXECSQL语句节点,PL/pgSQL会把整个语句原封不动发送到内核服务端中并生成计划,那么内核的语义分析模块就需要识别出括号内的id标识符是一个参数。
Vastbase通过钩子函数实现参数识别和值替换,代码如下:
struct ParseState {
PreParseColumnRefHook p_pre_columnref_hook;
PostParseColumnRefHook p_post_columnref_hook;
ParseParamRefHook p_paramref_hook;
}
typedef struct ParamListInfoData {
ParamFetchHook paramFetch; /* parameter fetch hook */
} ParamListInfoData;
通过设置ParseState结构p_post_columnref_hook钩子,内核在进行对写入字段进行语义分析时,会调用钩子函数,该钩子函数对命名空间链表进行查找,如果查找到则构造Param节点记录变量在PL/pgSQL变量里数组中的位置和类型,并挂载Query树上。
通过设置ParamListInfoData结构paramFetch钩子,内核在生成执行计划的预处理表达式阶段,调用该钩子,根据Param结构信息拿到该参数的在变量值,并把该Param结构替换为Const结构。
通过两个钩子函数,使得PL/pgSQL执行sql语句时,可以引用声明块内声明的变量或函数入参。
3、总结
通过上述介绍可以看出,Vastbase的PL/pgSQL模块与常规的编程语言类似,均支持赋值、条件分支、循环等多种语句类型,通过PL/pgSQL模块,可以在Vastbase服务端编写较为复杂的逻辑。其生命周期分为编译和运行两个阶段,使用PL/pgSQL编写函数/存储过程时,还通过缓存编译结果,使得函数调用变得更加高效。