DuckDB:pg_duckdb集成DuckDB和PostgreSQL实现高效数据分析

pg_duckdb是PostgreSQL的扩展,它将DuckDB的列矢量化分析引擎和特性嵌入到PostgreSQL中。本文介绍pg_duckdb插件安装、特点以及如何快速入门使用。

pg_duckdb简介

pg_duckdb扩展将完全能够查询DuckDB中存储在云中的数据,就像它是本地的一样。DuckDB的“双重执行”功能让我们可以无缝地将本地PostgreSQL数据与DuckDB数据连接起来,我们将找出运行查询的最佳位置。作为用户无需关心计算在哪里运行,我们只需要弄清楚如何让它运行得更快。

此外,在分析领域中,通常会将数据从事务数据库迁移到分析存储库中。pg_duckdb扩展和DuckDB可以提供帮助;你可以在PostgreSQL中运行一个查询,从PostgreSQL数据库中提取最近的数据并将其写入DuckDB。你不需要导出和重新导入数据,也不需要设置CDC。

最后,分析程序和事务业务位于相同数据库方案缺点比较明显。从内存和CPU需求的角度来看,分析程序可能会非常耗费资源。一旦数据库规模超过特定限额,直接在生事务型数据库上运行分析程序是不合适的。DuckDB可以帮助将分析程序迁移到云端,这样人们甚至不需要更改正在运行的查询,就能让查询速度更快。
在这里插入图片描述

安装pg_duckdb

要构建pg_duckdb,需要下面依赖:

  • PostgreSQL 16或17
  • Linux或MacOS
  • PostgreSQL扩展的标准构建工具集
  • 构建DuckDB所需的构建工具

要构建和安装,运行:

make install

在postgresql.conf配置文件中增加pg_duckdb配置:

shared_preload_libraries = 'pg_duckdb'

接下来,加载pg_duckdb扩展:

CREATE EXTENSION pg_duckdb;

重要提示:一旦加载,你可以通过运行SET duckdb.execution TO true。该选项是可选的,以避免破坏现有的查询。为了避免在每个会话中都这样做,你可以通过执行 ALTER USER my_analytics_user SET duckdb.execution TO true

验证安装结果

以下是几种验证 pg_duckdb 插件是否安装成功的方法:

  • 查看插件列表

连接到你的 PostgreSQL 数据库,可以使用命令行工具如 psql 或其他数据库管理工具。在数据库连接成功后,输入命令 dxSELECT * FROM pg_extension;,这两个命令都可以列出当前数据库中已安装的所有扩展插件。在列出的插件列表中,如果能找到 pg_duckdb,则说明插件安装成功。

  • 执行测试查询

在数据库连接成功后,尝试执行一条使用 pg_duckdb 插件功能的查询语句,例如:SELECT duckdb_version(); 这条语句会返回 DuckDB 的版本信息,如果能够成功执行并返回结果,说明 pg_duckdb 插件安装成功且可以正常工作。

  • 检查日志文件

查看 PostgreSQL 的日志文件,通常位于数据库的数据目录下,具体位置可以在 postgresql.conf 配置文件中找到,一般是 log_directory 配置项指定的目录。在日志文件中搜索与 pg_duckdb 相关的信息,如插件加载时的日志记录等,如果能找到类似 [INFO] Loading pg_duckdb extension 或其他表示插件成功加载的记录,则说明插件安装成功并已被正确加载。

特性介绍

由DuckDB引擎执行的SELECT查询可以直接读取PostgreSQL表

  • 能够读取存在于PostgreSQL和DuckDB中的数据类型。支持以下数据类型:数字、字符、二进制、日期/时间、布尔、uuid、json和数组。
  • 如果DuckDB由于任何原因不能支持查询,执行将返回到PostgreSQL。

从对象存储(AWS S3、Cloudflare R2或谷歌GCS)中读取parquet和CSV文件

  • SELECT n FROM read_parquet(‘s3://bucket/file.parquet’) AS (n int)
  • SELECT n FROM read_csv(‘s3://bucket/file.csv’) AS (n int)
  • 您可以将globs和数组传递给这些函数,就像在DuckDB中一样。

导出数据为parquet格式

  • COPY (SELECT foo, bar FROM baz) TO 's3://...'
  • COPY table TO 's3://...'

读写parquest格式数据

COPY (
  SELECT count(*), name
  FROM read_parquet('s3://bucket/file.parquet') AS (name text)
  GROUP BY name
  ORDER BY count DESC
) TO 's3://bucket/results.parquet';

对象存储中数据可以连接PostgreSQL表、视图和物化视图

在PostgreSQL表上创建索引来加速你的DuckDB查询

安装DuckDB扩展语句:SELECT duckdb.install_extension(‘extension_name’)

打开/关闭DuckDB执行设置

  • SET duckdb.execution = true|false

快速开始

最好的入门方法是使用pg_duckdb将PostgreSQL连接到一个新的或现有的对象存储桶(AWS S3, Minio等)。可以通过read_parquet、read_csv和iceberg_scan分别查询Parquet、CSV和Iceberg格式的数据。

  • 增强凭证并启用DuckDB httpfs扩展

    – Session Token is Optional
    INSERT INTO duckdb.secrets
    (type, id, secret, session_token, region)
    VALUES (‘S3’, ‘access_key_id’, ‘secret_access_key’, ‘session_token’, ‘us-east-1’);

  • 拷贝数据至对象存储桶,无需ETL流程

    COPY (SELECT user_id, item_id, price, purchased_at FROM purchases)
    TO 's3://your-bucket/purchases.parquet;

  • 执行数据分析

    SELECT SUM(price) AS total, item_id
    FROM read_parquet(‘s3://your-bucket/purchases.parquet’)
    AS (price float, item_id int)
    GROUP BY item_id
    ORDER BY total DESC
    LIMIT 100;

更多内容读者可以参考官方文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967584.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

防火墙安全综合实验

防火墙安全综合实验 一、拓扑信息 二、需求及配置 实验步骤 需求一:根据下表,完成相关配置 设备接口VLAN接口类型SW2GE0/0/2VLAN 10AccessGE0/0/3VLAN 20AccessGE0/0/1VLAN List:10 20Trunk 1、创建vlan10和vlan20 2、将接口划分到对应…

Vue 响应式渲染 - 过滤应用

Vue 渐进式JavaScript 框架 基于Vue2的学习笔记 - Vue响应式渲染综合 - 过滤应用 目录 过滤应用 引入vue Vue设置 设置页面元素 模糊查询过滤实现 函数表达式实现 总结 过滤应用 综合响应式渲染做一个输入框,用来实现;搜索输入框关键词符合列表。…

一文学会:用DeepSeek R1/V3 + AnythingLLM + Ollama 打造本地化部署的个人/企业知识库,无须担心数据上传云端的泄露问题

文章目录 前言一、AnythingLLM 简介&基础应用1.主要特性2.下载与安装3.配置 LLM 提供商4.AnythingLLM 工作区&对话 二、AnythingLLM 进阶应用:知识增强使用三、AnythingLLM 的 API 访问四、小结1.聊天模式2.本地存储&向量数据库 前言 如果你不知道Olla…

CNN-LSTM卷积神经网络长短期记忆神经网络多变量多步预测,光伏功率预测

CNN-LSTM卷积神经网络长短期记忆神经网络多变量多步预测,光伏功率预测 一、引言 1.1、研究背景和意义 光伏发电作为一种清洁能源,对于实现能源转型和应对气候变化具有重要意义。然而,光伏发电的输出功率具有很强的间歇性和波动性&#xff…

cppcheck静态扫描代码是否符合MISRA-C 2012规范

1 下载安装cppcheck 1.1 下载安装包 下载地址:http://cppcheck.net/ 同时把 Source code (.zip) 也下载下来,后面会用到。 1.2 安装及配置 双击安装文件,保持默认配置安装即可,默认安装的路径为:C:\Program Files\…

【Unity3D】UGUI的anchoredPosition锚点坐标

本文直接以实战去理解锚点坐标,围绕着将一个UI移动到另一个UI位置的需求进行说明。 (anchoredPosition)UI锚点坐标,它是UI物体的中心点坐标,以UI物体锚点为中心的坐标系得来,UI锚点坐标受锚点(Anchors Min…

【Hadoop】大数据权限管理工具Ranger2.1.0编译

目录 ​编辑一、下载 ranger源码并编译 二、报错信息 报错1 报错2 报错3 报错4 一、下载 ranger源码并编译 ranger官网 https://ranger.apache.org/download.html 由于Ranger不提供二进制安装包,故需要maven编译。安装其它依赖: yum install gcc …

C++20导出模块及使用

1.模块声明 .ixx文件为导入模块文件 math_operations.ixx export module math_operations;//模块导出 //导出命名空间 export namespace math_ {//导出命名空间中函数int add(int a, int b);int sub(int a, int b);int mul(int a, int b);int div(int a, int b); } .cppm文件…

使用 mkcert 本地部署启动了 TLS/SSL 加密通讯的 MongoDB 副本集和分片集群

MongoDB 是支持客户端与 MongoDB 服务器之间启用 TLS/SSL 进行加密通讯的, 对于 MongoDB 副本集和分片集群内部的通讯, 也可以开启 TLS/SSL 认证. 本文会使用 mkcert 创建 TLS/SSL 证书, 基于创建的证书, 介绍 MongoDB 副本集、分片集群中启动 TLS/SSL 通讯的方法. 我们将会在…

2、k8s的cni网络插件和基本操作命令

kube-prxoy属于节点组件,网络代理,实现服务的自动发现和负载均衡。 k8s的内部网络模式 1、pod内的容器于容器之间的通信。 2、一个节点上的pod之间的通信,docker0网桥直接通信。 3、不同节点上的pod之间的通信: 通过物理网卡的…

如何在RTACAR中配置IP多播(IP Multicast)

一、什么是IP多播 IP多播(IP Multicast)是一种允许数据包从单一源地址发送到多个目标地址的技术,是一种高效的数据传输方式。 多播地址是专门用于多播通信的IP地址,范围从 224.0.0.0到239.255.255.255 与单播IP地址不同&#x…

JavaEE架构

一.架构选型 1.VM架构 VM架构通常指的是虚拟机(Virtual Machine)的架构。虚拟机是一种软件实现的计算机系统,它模拟了物理计算机的功能,允许在单一物理硬件上运行多个操作系统实例。虚拟机架构主要包括以下几个关键组件&#xff…

车载测试工具 --- CANoe VH6501 进行Not Acknowledge (NAck) 测试

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…

第40天:Web开发-JS应用VueJS框架Vite构建启动打包渲染XSS源码泄露代码审计

#知识点 1、安全开发-VueJS-搭建启动&打包安全 2、安全开发-VueJS-源码泄漏&代码审计 一、Vue搭建创建项目启动项目 1、Vue 框架搭建->基于nodejs搭建,安装nodejs即可 参考:https://cn.vuejs.org/ 已安装18.3或更高版本的Node.js 2、Vue 创建…

Axure原型图怎么通过链接共享

一、进入Axure 二、点击共享 三、弹出下面弹框,点击发布就可以了 发布成功后,会展示链接,复制即可共享给他人 四、发布失败可能的原因 Axure未更新,首页菜单栏点击帮助选择Axure更新,完成更新重复以上步骤即可

DeepSeek本地化部署

DeepSeek本地化部署 本教程为一键式部署,适合于mac、ubuntu、windows。【开源地址】 环境要求 nodejs > 18Python > 3.10.12 步骤一:安装ollama客户端 官网直接安装,ollama官网。安装完成后使用命令:ollama -h&#xf…

单片机学习笔记——入门51单片机

一、单片机基础介绍 1.何为单片机 单片机,英文Micro Controller Unit,简称MCU 。内部集成了中央处理器CPU、随机存储器ROM、只读存储器RAM、定时器/计算器、中断系统和IO口等一系列电脑的常用硬件功能 单片机的任务是信息采集(依靠传感器&a…

DeepSeek-R1相关论文解读

另:数学推理论文篇:DeepSeekMath 一、DeepSeek-R1-Zero和DeepSeek R1区别 都使用了RL强化学习中的GROP,但是R1还使用了SFT,进行了多阶段训练。 1. 什么是SFT? SFT是给模型一些正确例子:情况1 answer&…

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯语言模型的发展历程:从统计方法到大规模预训练模型的演化1 统计语言模型(Statistical Language Model, SLM):统…

ArcGIS Pro批量创建离线服务sd包

背景: 主要针对一个工程内有多个地图框项: 处理方法:通过Python脚本处理打包。 运行环境 在Pro的Python环境中去运行编写的Python脚本。 Python 脚本参考 import arcpy import os# Set output file names outdir r"d:\data\out&…