流计算需要框架吗?SPL 可能是更好的选择

流数据源通常是动态、无界的,看起来与静态、有限的批数据源区别较大,传统的数据库技术在架构上难以直接处理流数据源,只能让位于后来者。heron\samza\storm\spark\flink等计算框架最先完成突破,在流计算技术中占得先发优势。这些框架非常成功,以至于一说到流计算,应用程序员通常都会去转头寻找某种框架,而不宣称是某种框架的计算技术,则通常被认为不适合实现流计算。

虽然计算框架最先突破流计算,但框架本身对流计算的意义不大。框架是针对特定的应用场景,事先准备的结构性代码,比如扩展方式(分布式、集中式)、主控流程(异步、同步)等,具体的应用程序只需往框架里填业务逻辑代码。框架优点鲜明,可以用较低的代码量建立成熟稳定的程序结构,但缺点也不能忽视,应用程序无法脱离框架的结构性束缚,只适用于框架预设的场景,这种预设场景很难面面俱到(否则太复杂太难用),通常只能针对单一场景。实际的应用场景多种多样日日有新,往往与预设场景不符,比如让spark被jasperReport报表调用,或让flink应用于小集群或边缘计算。这种场景下使用框架,开发者除了尽力适应预设场景,就只能对框架做出一定的修补,前者经常要牺牲计算性能或浪费硬件成本,后者则会付出巨大的工作量。如果针对实际场景设计结构性代码(并引入流计算类库),则可避免牺牲浪费和付出。即使实际场景恰好符合预设的场景,流计算框架也不一定是最优方案,比如分布式场景下,在降低结构性代码和计算代码的耦合性方面,分布式流计算框架就不如分布式服务框架(如Zookeeper、HSF、Dubbo)+流计算类库。

对流计算有意义的是访问能力和计算能力。流计算由流数据源和计算组成,也就是流数据访问能力和数据计算能力。访问能力指流数据源接口和流入机制。流数据源的种类很多,包括狭义的字符流和字节流,如http流、文件流、消息流(如kafka),也包括广义的流数据,如RDB的记录流(游标)、NoSQL的文档流。流入机制分为主动和被动两种,即系统主动从外界获取数据,以及系统被动等待外界输入数据。计算能力的门槛较高,作为流计算技术,至少应提供基本的结构化计算函数、基本的流程控制语法、基本的半结构化数据处理能力,即过滤、去重、排序、分组汇总、关联、归并等计算函数;分支结构(如if),循环结构(如for);将json\xml等半结构化数据解析为记录。

访问能力是基础,计算能力是核心。流计算还是计算,只不是数据源是流式的,那么计算能力本身才是根本,尤其是高级计算能力。访问能力的门槛较低,容易复制扩展,同质化严重,并非流计算的核心。高级计算能力的门槛很高,在根本上决定了流计算的开发效率和计算性能,是流计算的核心,比如流批混算、简化复杂计算、高性能计算。很多流计算框架往往将重点放在访问能力上(甚有的连这都不足),计算能力反倒不足,不能简化业务逻辑的复杂度,普遍还不如传统数据库。

高级计算能力:流批混算、简化复杂计算、高性能计算。除了监控等特殊场景外,单纯的流计算在现实中很少见,流数据和批数据的混合计算才是常态,实际上,监控类计算通常也要将批量数据(分钟小时级)和实时数据(秒级)合并后再计算。在实际项目中,虽然存在很多简单的计算逻辑如过滤、去重等,但更有价值的计算逻辑通常较复杂,需要流计算技术提供丰富的计算函数和自由的表达语法,从而直观快速地实现计算目标。流技术的实时性都不差,甚至超过人类感知范围,毫秒级对大多数应用意义并不大,但因为流批混算是常态,且很多流计算技术的批计算性能较弱(远不如RDB),导致整体性能较差,这种情况下必须提供丰富的高性能计算类库,才能提升整体计算性能。流数据经常要写出去再计算,比如暂存成温数据或长存成冷数据,流数据体积普遍偏大,再计算的时间普遍偏长,这种情况下也需要提供高性能的内外存存储格式,才能提升再计算(以及写读)的性能。流计算框架是对计算本身提供的支持并不丰富,专业性不足,高级计算能力还不成熟。

好的流计算技术,应当将重点放在流计算上,从而简化业务逻辑开发的复杂度,同时弱化框架,把结构性代码留给应用程序去做,从而适应各类应用场景。并在保证访问能力的基础上,重点提高计算能力,尤其是高级计算能力。

esProc SPL正是符合这些条件的流计算技术。

SPL是基于JVM的轻量级开源计算类库,支持灵活简单的JDBC集成接口,提供了方便的流数据访问能力和基本的计算能力,支持流批混算、简化复杂计算、高性能计算,是更加专业的计算语言。

灵活简单的集成接口

方便易用的JDBC接口。SPL计算代码以脚本文件的形式存于操作系统目录,Java代码通过JDBC调用SPL脚本文件,调用方法同存储过程。SPL的集成接口灵活简单,适用于广泛的应用场景,比如报表、桌面、Web、单机环境、分布式集群、手机应用、边缘计算。

例子:先编写SPL脚本。

AB
1=connect("ORCL")Oracle连接
2=A1.cursor@x("select OrderID,Amount,Client,SellerID,OrderDate from orders where OrderDate>? && OrderDate<=?",arg1,arg2)Oracle有界流
3

将上面SPL脚本存为mix.splx,Java通过JDBC调用脚本:

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
CallableStatement statement = conn.prepareCall("{call mix(?, ?)}");
statement.setObject(1, "2022-01-01");
statement.setObject(2, "2022-12-31");
statement.execute();

计算外置降低耦合性。SPL没有采用计算代码与非计算代码混合的框架,相反,SPL的计算代码外置于Java的非计算代码,两者各司其职专业互补,一方改动不影响另一方,程序员不用借助框架,就可以用简单代码实现计算逻辑和前端应用的解耦。

解释型语言支持热切换。SPL是解释型语言,修改后可立即执行,无须编译无须停机无须重启 JAVA 应用,程序员无需编写结构性代码,就能实现计算逻辑的热切换。

方便的流数据访问能力

SPL支持丰富的流数据源,既包括狭义的字符流和字节流,如http流、文件流、消息流(如kafka),也包括广义的流数据,如RDB的记录流(游标)、NoSQL的文档流。

例子:过滤Kafka的无界流:

ABC
1=kafka_open("D://kafka.properties","topic-test")kafka连接
2for=kafka_poll(A1).(json(value))循环取数
3

=B2.news(Datas;~.TagFullName,

round(Time,-3):Time,

~.Type,

~.Qualitie,

~.Value)

转为记录
4=B3.select(Value>3.0 && Value<=4.0)过滤
5

SPL支持的流数据源还有:任意RDB、Cassandra、InfluxDB、Redis、Dynamodb、ElasticSearch、HBase、Hive、HDFS、MongoDB、SAP、S3、阿里云等。除了读取,SPL也支持将计算结果写入这些数据源。

主动和被动的流入机制。主动流入机制,即在SPL脚本中通过流数据源接口获取数据并完成计算。参考前面过滤kafka的例子。

被动流入,即SPL脚本被动接收数据并完成计算。例子,实时发现异常工况。部分SPL脚本如下:

AB
1=func(A12,learn_interval,extrem_interval)调用A12格的子函数,计算极值序列
2=func(A16,A1.(~(1)), learn_interval,extrem_interval,seq,"up")调用A16格的子函数,计算阈值上限
3余下代码略

先在Java中通过API访问工厂设备的传感器,获取实时的时间序列;再通过JDBC调用SPL脚本,主要参数是时间序列Seq,次要参数有学习区间learn_interval、极值区间extrem_interval、报警间隔warn_interval;最后在SPL中接收参数,利用流入的时间序列完成异常发现。

基本计算能力

SPL内置基本结构化计算函数,可以轻松完成日常的SQL式计算。

过滤:data.select(Amount>1000 && Amount<=3000 && like(Client,"*s*"))

排序:data.sort(Client,-Amount)

去重:data.id(Client)

分组汇总:data.groups(year(OrderDate);sum(Amount))

关联:join(T ("D:/data/Orders.csv"):O,SellerId; T("D:/data/Employees.txt"):E,EId)

TopN:data.top(-3;Amount)

SPL还提供了符合SQL92标准的语法,支持集合计算、case when、with、嵌套子查询等。

SPL提供基本流程控制语法,可以方便地实现日常业务逻辑。

分支结构:

AB
2
3if T.AMOUNT>10000=T.BONUS=T.AMOUNT*0.05
4else if T.AMOUNT>=5000 && T.AMOUNT<10000=T.BONUS=T.AMOUNT*0.03
5else if T.AMOUNT>=2000 && T.AMOUNT<5000=T.BONUS=T.AMOUNT*0.02

循环结构:

AB
3for T=A3.BONUS=A3.BONUS+A3.AMOUNT*0.01
4=A3.CLIENT=CONCAT(LEFT(A3.CLIENT,4), "co.,ltd.")
5

SPL具有基本的半结构化数据处理能力,可以方便地处理Json\XML或不规则文本,尤其适合kafka等消息队列或mongoDB等NoSQL。

例如:对多层Json串进行条件查询,并用Json串返回计算结果:

AB
1=json(arg_JsonStr)解析参数Json串
2=A1.conj(Orders)合并下层记录
3=A2.select(Amount>1000 && Amount<=2000)条件查询
4=json(A3)结果转为Json串

高级计算能力:流批混算

计算能力不强的流计算技术往往不支持流批混算,即使表面支持,底层也是批、流两套引擎各算各的,需要事先转为同一类数据(通常是流数据),再用单一引擎(通常是流数据)进行伪混算。

SPL是专业的计算语言,流数据和批数据底层模型统一,单一引擎既能算流数据也能算批数据,自然也能直接进行混合计算,不必事先转为同类数据。

例子:Oracle与txt左关联,其中Oracle表太大无法读入内存。

AB
1=connect("ORCL")Oracle连接
2=A1.cursor@x("select OrderID,Amount,Client,SellerID,OrderDate from orders where OrderDate>? && OrderDate<=?",arg1,arg2)Oracle有界流
3=T("d:/data/Employees.txt")txt内存表
4=A2.join(SellerID,A3:EID,Dept)oracle关联txt
5=A4.groups(Dept, Client; sum(Amount),count(1))分组汇总

有些混算在原理上必须转为同类数据再算,比如流+批的归并、批+流(量小且有界)的外关联,这种情况下需要进行流批间的类型转换。计算能力不强的流计算技术有多种流式结构化数据类型和批量结构化数据类型,转换关系繁多且互相难以直接转换,通常要硬编码实现。

SPL是专业的计算语言,只有序表(批)、游标(流)两种结构化数据类型,互相可以方便地转化。例子:将Oracle的流记录与外部传入的Json串进行归并关联。

AB
1=connect("ORCL").cursor@x("select * from Orders Order by SellerID")有序流数据
2=json(arg_JsonStr).sort(EID)有序批数据
3=A2.cursor()批转流
4=joinx(A1,SellerID;A3,EID)双流归并
5=A4.groups(#2.Dept;sum(#1.Amount))分组汇总

高级计算能力:简化复杂计算

SPL支持有序计算、集合计算、分步计算、关联计算,可以简化复杂的结构化数据计算。例子:计算每个传感器电压最高的3条记录:

data.group(SensorID).(~.top(3;V))

SPL有真正的行号字段,支持有序集合,可以用直观的代码进行计算,即先按SensorID分组,再对各组(即符号~)计算TopN。SPL的集合化更加彻底,可以实现真正的分组,即只分组不汇总,这就可以直观地计算组内数据。

例子:最大连续上涨天数:

A
1=tbl.sort(day)
2=t=0,A1.max(t=if(price>price[-1],t+1,0))

SPL容易表达连续上涨的概念,先按日期排序;再遍历记录,发现上涨则计数器加1。代码中的max是循环函数,可依次遍历每条记录;代码中的[-1]是有序集合的用法,表示上一条,是相对位置的表示方法,price[-1]表示上一个交易日的股价,比整体移行(如SQL中的lag函数)更直观。

例子:求销售额占到一半的前n个客户:

AB
2=sales.sort(amount:-1)/销售额逆序排序,可在SQL中完成
3=A2.cumulate(amount)/计算累计序列
4=A3.m(-1)/2/最后的累计即总额
5=A3.pselect(~>=A4)/超过一半的位置
6=A2(to(A5))/按位置取值

SPL集合化成更彻底,可以用变量方便地表达集合,并在下一步用变量引用集合继续计算,因此特别适合多步骤计算。将大问题分解为多个小步骤,可以方便地实现复杂的计算目标,代码不仅简短,而且易于理解。此外,多步骤计算天然支持调试,无形中提高了开发效率。

SPL还支持游离记录,可以用点号直观地引用关联表,从而简化复杂的关联计算。

SPL有丰富的日期和字符串函数,能有效简化相关计算。

季度增减:elapse@q("2020-02-27",-3) //返回2019-05-27

N个工作日之后的日期:workday(date("2022-01-01"),25) //返回2022-02-04

字符串类函数,判断是否全为数字:isdigit("12345") //返回true

取子串前面的字符串:substr@l("abCDcdef","cd") //返回abCD

按竖线拆成字符串数组:"aa|bb|cc".split("|") //返回["aa","bb","cc"]

SPL还支持年份增减、求季度、按正则表达式拆分字符串、拆出单词、按标记拆HTML等大量函数。

值得一提的是,为了进一步提高开发效率,SPL还创造了独特的函数语法。比如用选项区分类似的函数,只过滤出符合条件的第1条记录,可使用选项@1:

T.select@1(Amount>1000)

从后往前查找第1条记录,可以使用@z:

T.select@z1(Amount>1000)

高级计算能力:高性能计算

SPL提供了大量高性能计算函数。有些函数(及语法)是独创的,可以用更低的时间复杂度达到同样的计算目标,比如遍历复用、倍增分段;有些函数是通用的,代码更简单用法更方便,比如二分查找、哈希索引。

QQ20230803162231png

SPL提供了高性能存储格式。高性能算法通常要基于高性能存储,像有序归并、单边分堆都要求数据有序才能实施,SPL 提供了名为组表的高性能外存存储格式,支持列存、有序、压缩、并行、分段、主键、索引等数据特征,信息密度和计算性能远高于普通格式,可极大提升加载速度,可充分释放高性算法的能力。SPL还提供了名为内表的高性能内存存储格式,支持内存压缩,可以与组表方便地互转,允许将更多的数据加载到内存,进行高性能内存计算。参考《SPL 计算性能系列测试:TPCH》

SPL支持温度分层和冷热路由。很多流数据产生的速度很快,计算涉及的数据又太多,必须先按温度(通常是时间)分层存储,并逐级溢出到下一层;计算时再按参数(通常是时间)路由到不同温度的数据,并进行混合计算。SPL支持并可简化这种计算结构,比如:计算涉及历史冷数据+近期温数据+实时热数据;秒/分钟级的热数据用内表存储,定期写入温数据;分钟/小时级的温数据用组表存储,定期写入冷数据;小时/天/月级的冷数据用RDB/数仓/数据湖存储,在必要时参与大跨度的混合计算。实际的项目结构更复杂分层更多,参考《超多位点高频时序数据的实时存储和统计》

SPL已开源免费,欢迎前往乾学院下载试用!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/945969.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式の状态策略责任链模式

文章目录 前言一、状态模式二、策略模式三、责任链模式 前言 本篇是关于设计模式中的状态模式、策略模式、以及责任链模式的学习笔记。 一、状态模式 状态模式是一种行为设计模式&#xff0c;核心思想在于&#xff0c;使某个对象在其内部状态改变时&#xff0c;改变该对象的行为…

鸿蒙UI开发——使用WidthTheme实现局部深浅色

1、场景描述 在实际的应用开发中&#xff0c;我们可能需要在界面中局部应用深色或者浅色的界面样式&#xff0c;与全局的深色、亮色同时生效。场景例如&#xff1a;深/亮色预览。此时&#xff0c;我们可以使用WithTheme能力来达到我们的效果。 2、WithTheme WithTheme组件可…

20241231取消掉夸克浏览器为默认浏览器

20241231取消掉夸克浏览器为默认浏览器 2024/12/31 17:59 因为有些资源必须用夸克网盘下载&#xff01;^_ 地区特色问题。对于百度网盘&#xff0c;如果你分享BBC的纪录片合集&#xff0c;马上给你无效掉&#xff01;^_ 但是夸克有一点夜郎自大了&#xff0c;把客户的默认浏览器…

详细教程:SQL2008数据库备份与还原全流程!

数据的安全性至关重要&#xff0c;无论是操作系统、重要文件、磁盘存储&#xff0c;还是企业数据库&#xff0c;备份都是保障其安全和完整性的关键手段。拥有备份意味着即使发生误删、系统崩溃或病毒攻击等问题&#xff0c;也能迅速通过恢复功能解决&#xff0c;避免数据丢失带…

一、Hadoop概述

文章目录 一、Hadoop是什么二、Hadoop发展历史三、Hadoop三大发行版本1. Apache Hadoop2. Cloudera Hadoop3. Hortonworks Hadoop 四、Hadoop优势1. 高可靠性2. 高扩展性3. 高效性4. 高容错性 五、Hadoop 组成1. Hadoop1.x、2.x、3.x区别2. HDFS 架构概述3. YARN 架构概述4. Ma…

docker-开源nocodb,使用已有数据库

使用已有数据库 创建本地数据库 数据库&#xff1a;nocodb 用户&#xff1a;nocodb 密码&#xff1a;xxxxxx修改docker-compose.yml 默认网关的 IP 地址是 172.17.0.1&#xff08;适用于 bridge 网络模式&#xff09;version: "2.1" services:nocodb:environment:…

BetterBench的2024年终总结

回忆录 去年的年末定的2024目标是阅读300篇文献&#xff0c;发表一篇小论文&#xff0c;阅读20本的目标&#xff0c;都没有如期完成。只读了130篇论文&#xff0c;小论文还只写了初稿&#xff0c;还没有投出去&#xff0c;只读了6本书&#xff0c;上半年很浮躁&#xff0c;都没…

编辑音频的基本属性

导入音频 “文件-导入-选择音频”拖到音频轨道创建序列。选择音频&#xff0c;在效果空间可以看到音频的基本属性。 音量的设置 “效果工作区-效果控件-音量”在这里可以控制所有引导的混合音量 静音 静止所有声音 音频仪表 一般位于时间轴的后面&#xff0c;找不到可以…

SQL 基础教程 - SQL SELECT 语句

SQL SELECT DISTINCT 语句 SELECT DISTINCT 语句用于返回唯一不同的值。 在表中&#xff0c;一个列可能会包含多个重复值&#xff0c;有时您也许希望仅仅列出不同&#xff08;distinct&#xff09;的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 …

Oracle 回归分析函数使用

Oracle 回归分析函数使用 文章目录 Oracle 回归分析函数使用什么是 回归分析函数回归分析函数示例1. 分析 SAL 和 COMM 之间的回归关系2. 按部门分析 SAL 和 COMM 的关系3. 根据 SAL 预测 COMM4. 分析员工薪资与工作年限的关5. 按部门分析工作年限与薪资的关系6. 计算 REGR_AVG…

idea项目导入gitee 码云

1、安装gitee插件 IDEA 码云插件已由 gitosc 更名为 gitee。 1 在码云平台帮助文档http://git.mydoc.io/?t153739上介绍的很清楚&#xff0c;推荐前两种方法&#xff0c; 搜索码云插件的时候记得名字是gitee&#xff0c;gitosc已经搜不到了。 2、使用码云托管项目 如果之…

Cesium 实战 27 - 三维视频融合(视频投影)

Cesium 实战 27 - 三维视频融合(视频投影) 核心代码完整代码在线示例在 Cesium 中有几种展示视频的方式,比如墙体使用视频材质,还有地面多边形使用视频材质,都可以实现视频功能。 但是随着摄像头和无人机的流行,需要视频和场景深度融合,简单的实现方式则不能满足需求。…

spring boot的各个版本介绍

Spring Boot 是一个用于创建独立、生产级别的基于 Spring 的应用程序的框架。自2014年首次发布以来&#xff0c;Spring Boot 经历了多个版本的迭代&#xff0c;每个版本都带来了新特性、性能改进和错误修复。下面是对Spring Boot一些主要版本的简要介绍&#xff1a; Spring Boo…

基于zynq在linux下的HDMI实战

ZYNQ系列文章目录 第一章&#xff1a;基于zynq在linux下的phy调试记录 第二章&#xff1a;qemu制作ubuntu文件系统 第三章&#xff1a;基于zynq在linux下的AXI-CAN实战 第四章&#xff1a;基于zynq在linux下的HDMI实战 文章目录 ZYNQ系列文章目录前言一、vivado中HDMI的配置1.…

LabVIEW 实现自动对焦的开发

自动对焦&#xff08;Autofocus, AF&#xff09;技术是通过分析图像或传感器信号&#xff0c;动态调整焦点位置以实现清晰成像或高精度定位的过程。在LabVIEW中&#xff0c;可以通过集成信号采集、数据处理、控制算法和硬件接口模块&#xff0c;实现多种自动对焦方法&#xff0…

机器人C++开源库The Robotics Library (RL)使用手册(四)

建立自己的机器人3D模型和运动学模型 这里以国产机器人天机TR8为例,使用最普遍的DH运动学模型,结合RL所需的描述文件,进行生成。 最终,需要的有两个文件,一个是.wrl三维模型描述文件;一个是.xml运动学模型描述文件。 1、通过STEP/STP三维文件生成wrl三维文件 机器人的…

直播电商系统源码搭建实战:快速开发多商户带货APP的指南

今天&#xff0c;笔者将从源码选择、功能设计、开发流程等方面&#xff0c;带你了解如何快速开发一个高效实用的直播电商系统。 一、明确需求&#xff1a;功能设计是基础 以下是一个多商户直播电商系统的核心功能模块&#xff1a; -商户管理模块 -直播带货模块 -商品管理模…

风力涡轮机缺陷检测数据集,86.6%准确识别率,11921张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注

风力涡轮机缺陷检测数据集&#xff0c;86.6&#xff05;准确识别率&#xff0c;11921张图片&#xff0c;支持yolo&#xff0c;PASICAL VOC XML&#xff0c;COCO JSON格式的标注 数据集下载 yolov11&#xff1a; https://download.csdn.net/download/pbymw8iwm/90206849 yolov…

委外加工业务如何调整原材料的消耗-MIGO A11-后续调整

业务背景&#xff1a;用户反馈委外加工业务回收后&#xff0c;产品已经销售&#xff0c;但委外加工结算时要对原材料消耗时行调整。如果没有销售&#xff0c;准备采用收货冲销后重新收货&#xff0c;但现在已经是2024年最后一天了。。。销售业务已经做完。不可能再冲销。其实这…

ultralytics库RT-DETR代码解析

最近读了maskformer以及maskdino的分割头设计&#xff0c;于是想在RT-DETR上做一个分割的改动&#xff0c;所以选择在ultralytics库中对RTDETR进行改进。 本文内容简介&#xff1a; 1.ultralytics库中RT-DETR模型解析 2. 对ultralytics库中的RT-DETR模型增加分割头做实例分割 …