presto/trino 入门介绍实战

引言

Presto是一款分布式SQL查询引擎,它能够在大规模数据集上实现快速、交互式的查询。本文将介绍Presto的基本概念并结合一些实际的代码示例,能够让的大家快速入门并在实际项目中应用。

官网:Launch Presto: Local download, JDBC, Docker or on AWS Cloud

1. Presto 简介

facebook开源的prestodb是一个分布式的sql引擎,支持多种数据源接入,采用统一的sql语句进行查询。内部实现也类似spark,将这个查询分为分析、优化、阶段划分、执行这些步骤。

  • Presto是由Facebook开发的分布式sql查询引擎,用来进行高速、实时的数据查询
  • Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS的问题
  • Presto是一个计算引擎,它不存储数据,通过丰富的connector获取第三方服务的数据,并支持扩展。可以通过连接Hive,来实现快速query hive table
  • 可以跨数据源进行联合查询

2019年,prestodb分化为prestodb和prestosql,prestosql有原始团队维护,现改名为trino。分化近两年后,从生态上看,trino势头明显强过prestodb。例如,下面几点只有在trino中才有:

  • 聚合下推支持
  • join下推支持
  • elasticsearch索引支持通配*

后面的研究都基于trino进行。

查询例子

# 联合查询hive的表和mysql的表
select * from hive.testdb.tableA a join mysql.testdb.tableB b
where a.id = b.id

show catalogs
show schemas

2. Presto 数据模型

Presto 是一款分布式 SQL 查询引擎,其数据模型基于表(Table)和架构(Schema)。Presto 不存储数据,而是通过连接各种数据源进行实时查询。以下是 Presto 的核心数据模型元素:

  • Schema(架构):

    • Schema 是 Presto 中的顶层命名空间,用于组织和隔离表。每个表都属于一个特定的 Schema。
    • 在 Presto 中,Schema 可以看作是一个数据库,不同的是,Presto 的 Schema 通常指向不同的数据源。
  • Table(表):

    • Table 是 Presto 中的数据存储单元。每个表都属于一个特定的 Schema。
    • Presto 支持从各种数据源(如 Hive、MySQL、PostgreSQL 等)中的表执行查询。
  • Column(列):

    • 表中的每一列代表了数据的一个属性。列定义了数据的类型,如整数、字符串、日期等。
    • 查询时,可以引用表中的特定列以检索相应的数据。
  • Row(行):

    • 表中的每一行代表了一条记录。每行中的数据按列排列,形成一个记录的完整集合。
  • Connector(连接器):

    • 连接器是 Presto 中用于连接到不同数据源的插件。每个连接器负责实现 Presto 与特定数据源的交互。
    • Presto 可以同时连接到多个数据源,能够跨越多种类型的数据存储执行查询。
  • Catalog(目录):

    • 目录是 Presto 中用于组织连接器的逻辑单元。每个连接器都注册到一个或多个目录中。
    • 通过目录,Presto 可以了解到底有哪些数据源可以查询。
  • Session(会话):

    • 会话是 Presto 中的查询执行环境。每个查询都在一个独立的会话中执行,会话保持了查询的上下文信息。
    • 在会话中可以设置各种配置选项,如查询超时时间、内存限制等。

Presto的数据模型相当灵活,用户可以通过 SQL 查询语言访问和操作各种数据源中的数据。通过连接器的引入,Presto 可以与不同类型的存储系统协同工作,提供统一的查询接口,使得数据分析变得更加方便和高效。

3. 聚合下推

聚合下推是我们最关心的特性。我们知道sql引擎本质上是在引擎侧对数据进行计算处理的,在大数据条件下,如果所有的数据都在引擎侧计算处理,性能比较差,稳定性也有问题,主要体现在:

  • 大量数据的拉取,对源数据库造成的IO压力和网络开销
  • 大量数据留存在引擎侧进行计算,引擎本身有OOM的风险

一般而已,sql引擎都支持一种要pushdown的优化策略。例如如果用户查询中包含对数据源数据的过滤语义,那么过滤操作可以下放给数据源进行,这个优化称为“过滤下推”。绝大多数sql引擎都支持过滤下推。此外还有projection下推(投影下推)。但是却极少有引擎支持聚合下推。

用户对数据的查询需求,其实往往是聚合分析场景。而一般的sql引擎只能将源数据拉取到引擎中进行聚合计算,区别可能仅仅是单机聚合或者分布式聚合。presto或spark,作为分布式sql引擎,利用MR思想,支持对大量数据进行分布式聚合。

然而,随着数据量的变大,即使是分布式聚合,依然要面临大量数据从数据源拉取的尴尬。我们知道绝大多数的数据库都是支持聚合操作的,而且许多列式数据库、时序数据库聚合查询的性能是极其强悍的。那么作为sql引擎是否能支持将聚合查询也下沉给数据库完成呢?

trino于2020/06发布的版本中声称在数据源接口层支持applyAggregation函数,这意味着数据库如果有能力完成聚合查询,可以实现该函数,提高查询性能,减少数据传输。Release 335 (14 Jun 2020) — Trino 436 Documentation

通过详细调研,trino目前仅有jdbc相关的数据源实现了applyAggregation。为了,验证和深入理解applyAggregation,尝试在elasticsearch数据源上实现聚合pushdown。

最终,实现了term aggregation和min/max/sum/avg/count(x)/count(*),下面是测试的基本功能,可以看到对于40000条记录的index,下推聚合的性能明显高于普通聚合:

The following simple test is based on an index of more than 40000 records.
The difference in query efficiency between the two methods can be figured out.

trino:default> select hostname, avg("values") from elasticsearch.default.slmday60 group by hostname;
hostname | _col1
---------------+-------------------
192.168.21.58 | 4992.663530635401
192.168.21.59 | 4989.727731732876
(2 rows)
Query 20210225_091409_00005_rb8ni, FINISHED, 1 node
Splits: 17 total, 17 done (100.00%)
0.53 [2 rows, 0B] [3 rows/s, 0B/s]
trino:default> set session elasticsearch.aggregation_pushdown_enabled=false;
SET SESSION
trino:default> select hostname, avg("values") from elasticsearch.default.slmday60 group by hostname;
hostname | _col1
---------------+-------------------
192.168.21.58 | 4992.663530635401
192.168.21.59 | 4989.727731732876
(2 rows)
Query 20210225_091431_00007_rb8ni, FINISHED, 1 node
Splits: 50 total, 50 done (100.00%)
2.80 [42.1K rows, 1.68MB] [15.1K rows/s, 617KB/s]] ]></ac:plain-text-body></ac:structured-macro><p>对比聚合下推和非聚合下推情况下的执行计划:</p><p>非聚合下推</p><ac:structured-macro ac:name="code" ac:schema-version="1" ac:macro-id="fd0d9b25-0b25-49a0-861b-ec070471aea2"><ac:plain-text-body><![CDATA[Fragment 0 [SINGLE]                                                                                                 
     Output layout: [hostname, avg]                                                                                  
     Output partitioning: SINGLE []                                                                                  
     Stage Execution Strategy: UNGROUPED_EXECUTION                                                                   
     Output[hostname, _col1]                                                                                         
     │   Layout: [hostname:varchar, avg:double]                                                                      
     │   Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?}                                                     
     │   _col1 := avg                                                                                                
     └─ RemoteSource[1]                                                                                              
            Layout: [hostname:varchar, avg:double]                                                                   
                                                                                                                     
 Fragment 1 [HASH]                                                                                                   
     Output layout: [hostname, avg]                                                                                  
     Output partitioning: SINGLE []                                                                                  
     Stage Execution Strategy: UNGROUPED_EXECUTION                                                                   
     Project[]                                                                                                       
     │   Layout: [hostname:varchar, avg:double]                                                                      
     │   Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?}                                                     
     └─ Aggregate(FINAL)[hostname][$hashvalue]                                                                       
        │   Layout: [hostname:varchar, $hashvalue:bigint, avg:double]                                                
        │   Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?}                                                  
        │   avg := avg("avg_0")                                                                                      
        └─ LocalExchange[HASH][$hashvalue] ("hostname")                                                              
           │   Layout: [hostname:varchar, avg_0:row(double, bigint), $hashvalue:bigint]                              
           │   Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?}                                               
           └─ RemoteSource[2]                                                                                        
                  Layout: [hostname:varchar, avg_0:row(double, bigint), $hashvalue_1:bigint]                         
                                                                                                                     
 Fragment 2 [SOURCE]                                                                                                 
     Output layout: [hostname, avg_0, $hashvalue_2]                                                                  
     Output partitioning: HASH [hostname][$hashvalue_2]                                                              
     Stage Execution Strategy: UNGROUPED_EXECUTION                                                                   
     Aggregate(PARTIAL)[hostname][$hashvalue_2]                                                                      
     │   Layout: [hostname:varchar, $hashvalue_2:bigint, avg_0:row(double, bigint)]                                  
     │   avg_0 := avg("values")                                                                                      
     └─ ScanProject[table = elasticsearch:SCAN:slmday60, grouped = false]                                            
            Layout: [hostname:varchar, values:bigint, $hashvalue_2:bigint]          

聚合下推 

 Fragment 0 [SINGLE]                                               
     Output layout: [hostname, _efgnrtd]                           
     Output partitioning: SINGLE []                                
     Stage Execution Strategy: UNGROUPED_EXECUTION                 
     Output[hostname, _col1]                                       
     │   Layout: [hostname:varchar, _efgnrtd:double]               
     │   Estimates: {rows: ? (?), cpu: ?, memory: 0B, network: ?}  
     │   _col1 := _efgnrtd                                         
     └─ RemoteSource[1]                                            
            Layout: [hostname:varchar, _efgnrtd:double]            
                                                                   
 Fragment 1 [SOURCE]                                               
     Output layout: [hostname, _efgnrtd]                           
     Output partitioning: SINGLE []                                
     Stage Execution Strategy: UNGROUPED_EXECUTION                 
     TableScan[elasticsearch:AGG:slmday60, grouped = false]        
         Layout: [hostname:varchar, _efgnrtd:double]               
         Estimates: {rows: ? (?), cpu: ?, memory: 0B, network: 0B} 
         hostname := hostname::varchar                             
         _efgnrtd := _efgnrtd_0::double          

多个group by,多个聚合函数都没有问题,也可以支持没有groupby情况下的聚合,例如:

select count(*) 
from elasticsearch.default.slmday60 
where "@timestamp" > TIMESTAMP '2020-04-13' and "@timestamp" < TIMESTAMP '2020-04-13 00:01:00'

count(x):使用value_count(field)聚合

count(*): 使用value_count("_id")聚合

4. 安装与配置

下面是简单安装的步骤,具体安装方式可能有所不同,请参考Presto官方文档Deploying Presto — Presto 0.284 Documentation。

# 下载Presto压缩包
wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.267/presto-server-0.267.tar.gz

# 解压
tar -xvf presto-server-0.267.tar.gz

# 进入Presto目录
cd presto-server-0.267

# 配置Presto节点
cp etc/node.properties{.example,}

# 配置连接器(例如Hive)
cp etc/catalog/hive.properties{.example,}

5. 启动 Presto 节点

# 启动Presto服务
bin/launcher start

6. Presto 实战示例

6.1 连接到 Presto

使用Presto CLI连接到Presto服务器:

# 连接到Presto
presto --server localhost:8080 --catalog hive --schema default

6.2 执行 SQL 查询

在Presto CLI中执行简单的SQL查询:

-- 查询Hive中的数据
SELECT * FROM test_db LIMIT 10;

6.3 连接其他数据源

Presto支持多种数据源,如MySQL、PostgreSQL等。首先,需要在etc/catalog目录下配置相应的属性文件。以下是连接MySQL的示例:

# 复制MySQL配置文件
cp etc/catalog/mysql.properties{.example,}

编辑mysql.properties,配置MySQL连接信息:

connector.name=mysql
connection-url=jdbc:mysql://192.168.101.32:3306/test
connection-user=root
connection-password=root123

然后,重新启动Presto节点:

bin/launcher restart

之后,就可以写sql查询不同数据源之间的数据了

# 联合查询hive的表和mysql的表
select * from hive.testdb.tableA a join mysql.testdb.tableB b
where a.id = b.id

show catalogs
show schemas

7. 结语

Presto的强大之处在于它能够无缝连接各种数据源,提供快速、交互式的数据分析能力。在实际项目中,结合Presto的灵活性,可以更方便地处理大规模数据集,加速数据分析和决策过程。希望这篇文章对大家了解和使用Presto有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/322485.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

11.云原生分布式数据库之TIDB

云原生专栏大纲 文章目录 为什么使用TIDB后端视角运维视角基础架构视角 TiDB Operator 简介软件版本要求部署tidbTIDB工具helm常用命令TIDB学习推荐资料 为什么使用TIDB 从后端视角、运维视角和基础架构视角来看&#xff0c;使用 TiDB 作为数据库系统可以获得分布式架构、高可…

目标检测应用场景—数据集【NO.25】牛行为检测数据集

写在前面&#xff1a;数据集对应应用场景&#xff0c;不同的应用场景有不同的检测难点以及对应改进方法&#xff0c;本系列整理汇总领域内的数据集&#xff0c;方便大家下载数据集&#xff0c;若无法下载可关注后私信领取。关注免费领取整理好的数据集资料&#xff01;今天分享…

云原生微服务之分布式锁框架 Redisson

&#x1f339;作者主页&#xff1a;青花锁 &#x1f339;简介&#xff1a;Java领域优质创作者&#x1f3c6;、Java微服务架构公号作者&#x1f604; &#x1f339;简历模板、学习资料、面试题库、技术互助 &#x1f339;文末获取联系方式 &#x1f4dd; 系列专栏目录 [Java项目…

动物多指标生理监测:ZL-019A大小鼠饮食饮水监测系统

ZL-019A大小鼠饮食饮水监测系统是一款能够实时监测和分析动物的饮食、饮水、站立、活动量和活动轨迹等行为和代谢过程的智能系统。 本系统旨在定期测量实验动物的饮食饮水摄入行为&#xff0c;用户可根据需要自定义测量时间。通过定期测量&#xff0c;研究者无需再费心记录单个…

代码随想录 Leetcode454. 四数相加 II

题目&#xff1a; 代码 (首刷看解析 2024年1月15日&#xff09;&#xff1a; class Solution { public:int fourSumCount(vector<int>& nums1, vector<int>& nums2, vector<int>& nums3, vector<int>& nums4) {int n nums1.size();u…

【干货】数字化工厂常见术语合集

本文将为大家介绍一些行业通俗名称&#xff0c;希望对于从事“数字工厂”行业的朋友以及正在求职的朋友们有所助益。 数字化工厂&#xff08;"Digital factory"&#xff0c;简写为"DF"&#xff09;&#xff1a;是指利用先进的信息技术和数字化解决方案&am…

关于如何禁用、暂停或退出OneDrive等操作,看这篇文件就够了

​想知道如何禁用OneDrive?你可以暂停OneDrive的文件同步,退出应用程序,阻止它在启动时打开,或者永远从你的机器上删除该应用程序。我们将向你展示如何在Windows计算机上完成所有这些操作。 如何在Windows上关闭OneDrive 有多种方法可以防止OneDrive在你的电脑上妨碍你。…

AI自动写文章的软件有哪些?分享五款实用的

据相关数据统计&#xff0c;AI自动写文章的软件逐渐成为了现实。这些写作软件利用强大的自然语言处理和机器学习算法&#xff0c;能够自动生成文章&#xff0c;为写作工作提供了极大的便利。在本文中&#xff0c;我将向大家介绍五款实用的AI自动写文章的软件&#xff0c;一起来…

打破效率瓶颈:运用Excel提升文秘与行政工作质量

文章目录 一、数据整理二、数据分析三、报表制作四、图表展示五、模板应用六、宏编程七、安全与隐私《Excel高效办公&#xff1a;文秘与行政办公&#xff08;AI版&#xff09;》编辑推荐内容简介作者简介目录获取方式 在现代企业中&#xff0c;文秘与行政办公人员的工作内容繁杂…

文件批量重命名:如何给文件自定义名称,大量文件重命名的方法

在日常生活和工作中&#xff0c;经常要处理大量的文件&#xff0c;例如把文件重命名。手动重命名每个文件不仅耗时&#xff0c;而且容易出错。现在一起来看云炫文件管理器如何按自定义名称批量给文件重命名的技巧。 文件名自定义名称前后缩略图对比。 用自定义名称批量重命名…

Unity 编辑器篇|(五)编辑器拓展GUILayout类 (全面总结 | 建议收藏)

目录 1. 前言2. 参数3. 功能3.1 按钮&#xff1a;Button、RepeatButton3.2 文本&#xff1a;Label、TextArea、TextField、PasswordField3.3 工具栏&#xff1a;Toolbar3.4 切换框&#xff1a;Toggle3.5 滚动条&#xff1a;HorizontalScroll 、VerticalScroll3.6 滑条&#xff…

优思学院|质量管理五大工具和七大手法要点总结|2024

在现代企业管理中&#xff0c;质量管理是核心竞争力的重要组成部分。它不仅关系到产品的品质&#xff0c;更直接影响到企业的市场信誉和经济效益。本文将深入探讨质量管理中的五大工具及七大手法&#xff0c;这些工具和手法都贯穿了六西格玛DMAIC五步的方法论之中&#xff0c;是…

MYSQL第三次作业--单表查询

第三次作业 一、创建worker表 mysql> create table worker(-> 部门号 int(11) not null,-> 职工号 int(11) not null,-> 工作时间 date not null,-> 工资 float(8,2) not null,-> 政治面貌 varchar(10) not null default群众,-> 姓名 varchar(20) not n…

arrow,一个神奇的 Python 库!

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com 大家好&#xff0c;今天为大家分享一个神奇的 Python 库 - arrow。 Github地址&#xff1a;https://github.com/arrow-py/arrow 日期和时间处理是许多应用程序中的常见任务&#xff0c;但在 Python 中&#xf…

聚类算法之Kmeans聚类详解

聚类算法是无监督学习算法&#xff0c;它根据样本之间的相似性&#xff0c;将样本划分到不同的类别中&#xff1b;不同的相似度计算方法&#xff0c;会得到不同的聚类结果&#xff0c;常用的相似度计算方法有欧氏距离法。聚类算法的目的是在没有先验知识的情况下&#xff0c;自…

亚马逊卖家必备神器:鲲鹏系统助力产品排名飙升

亚马逊鲲鹏系统是一款功能强大的工具&#xff0c;为亚马逊卖家提供了多种实用功能&#xff0c;旨在提高产品排名、增加自然流量&#xff0c;并模拟真实的人类操作&#xff0c;以规避亚马逊的检测系统。 下面是亚马逊鲲鹏系统的主要功能和8大特点&#xff1a; 主要功能&#xf…

MATLAB对话框与菜单设计实验

本文MATLAB源码&#xff0c;下载后直接打开运行即可[点击跳转下载]-附实验报告https://download.csdn.net/download/Coin_Collecter/88740733 一、实验目的 1.掌握建立控件对象的方法。 2.掌握对话框设计方法。 3.掌握菜单设计方法。 二、实验内容 建立如下图所示的菜单。菜单…

(2023版)斯坦福CS231n学习笔记:DL与CV教程 (2) | 图像分类与损失函数

前言 &#x1f4da; 笔记专栏&#xff1a;斯坦福CS231N&#xff1a;面向视觉识别的卷积神经网络&#xff08;23&#xff09;&#x1f517; 课程链接&#xff1a;https://www.bilibili.com/video/BV1xV411R7i5&#x1f4bb; CS231n: 深度学习计算机视觉&#xff08;2017&#xf…

从第一性原理看大模型Agent技术

本文由下面的内部分享视频文字稿重新整理而成 从第一性原理看大模型Agent技术 引 一个乐观主义者的悲观估计 随着大规模模型技术的兴起&#xff0c;我们正处于一个崭新的智能时代的黎明。我们有一个大胆的预测&#xff0c;未来的5到10年将可能带来一场大变局&#xff1a;99%的…

Java异常:toString()和getMessage()区别

首先写了两个错误 Controller public class DemoController {RequestMapping("/show1")public String showInfo(){String str null;str.length();return "index";}RequestMapping("/show2")public String showInfo2(){int a 10/0;return &quo…