酷克数据亮相第13届PostgreSQL中国技术大会,获数据库杰出贡献奖


7 月 12 日,第 13 届 PostgreSQL 中国技术大会在杭州盛大开幕。本次大会以“聚焦云端创新,汇聚智慧共享”为主题,邀请了国内外 PG 领域众多行业大咖、学术精英及技术专家,共同探讨数据库领域的发展趋势、技术创新和实践经验。酷克数据作为国内领先的 PG 技术栈实践者和重要的社区贡献者出席本次大会,酷克数据的技术专家团队也受邀参与主论坛及多场分论坛,为与会者带来了精彩的主题演讲。

同时,酷克数据作为社区先锋,积极贡献,推动生态繁荣,以创新技术引领 PostgreSQL 社区发展,荣获“第 13 届 PostgreSQL 中国技术大会数据库杰出贡献奖”。


01PostgreSQL分布式数据库的开源新选择——CloudberryDB

演讲人:酷克数据联合创始人马涛


在数据库领域,Greenplum(GP)一直以其高效的数据处理能力和灵活的扩展性著称。然而,近期发生的 GP 源码归档事件引发了大规模讨论。


在《PostgreSQL 分布式数据库的开源新选择——CloudberryDB》的主题演讲中,酷克数据联合创始人马涛从技术发展与用户需求的角度,阐述了 CloudberryDB 作为 GP 的衍生版,在保持与 GP 原生兼容和无缝迁移的基础上,如何通过创新工程特性解决 GP 的痛点,并满足新型计算需求和架构下的挑战。


a039d8460aacafa60e69fcac6ac41896.jpeg


马涛认为,GP 归档事件不仅影响了大量 GP 用户的日常使用,还对 GP 的未来发展产生了深远的影响,尤其是考虑到 GP 在全球及国内市场的高排名和广泛应用,将促使许多用户面临更新断档和迁移挑战。


为了响应用户需求,推动开源生态,酷克数据于去年正式开源基于 PostgreSQL 与 Greenplum 研发、面向 AI 和分析场景打造的新一代数据库 Cloudberry Database (CloudberryDB)。


CloudberryDB 遵循 Apache License 2.0,确保项目的开放性和商业友好性,整体目标是实现与 GP 的原生兼容和无缝迁移,以确保用户能以相同的方式使用 CloudberryDB,就像使用 GP 一样,保持体验和操作方式的一致性。


马涛强调,作为 GP 的衍生版,CloudberryDB 不是简单地克隆代码并重新命名,而是致力于形成足够的差异化价值,以满足新型计算需求和架构下的需求。CloudberryDB 特别新增了诸多关键的工程特性,在 Greenplum 的使用痛点上下功夫,提供了包括性能优化、实时计算支持以及新型架构解决方案支持等能力。


bc3afb04ad8c533d6dabb476dc112fd6.jpegcf77998bd622a99e41db4fe220957a2f.jpeg


一直以来,酷克数据坚持以开源方式推动 CloudberryDB 发展,始终遵循“反哺上游”、“体验优先”、“宽容开源协议”、“保持开放”关键原则。为实现开源愿景,酷克数据计划将 CloudberryDB 托管至第三方中立基金会,确保社区共同治理,构建并遵循社区治理机制,确保项目长期维护。


e8eac38de9cd031e6d2ed42fcbb3ae5d.jpeg


除了开源数据库项目 CloudberryDB,酷克数据还将提供 HashData 云原生数据仓库的全面商业服务。马涛表示,“从最开始的专注构建数据仓库,到如今,我们的理念是追求“湖仓一体”。这不仅仅是一个实现过程,更是我们的核心愿景:帮助客户实现全域数据的纳管与分析,打造从数据到应用落地的闭环管理和自动化管理。”


为了实现这一目标,酷克数据在 HashData 云原生数据仓库上下游技术栈上进行了广泛的改造,推出了面向存算分离架构的 UnionStore 存储模式、In-Database 机器学习平台 HashML 以及基于 HashData 构建分布式大规模多模态向量知识库,为用户提供具备强大工具链的一站式数据平台。


马涛强调:“酷克数据将持续致力于 HashData 云原生数据仓库的创新与发展,不断推出更多前沿技术和解决方案,以满足客户日益增长的数据处理需求。我们相信,通过 HashData 的强大功能和完善服务,将助力更多企业在数字化转型的道路上取得更大成功。”


a3fa953a426ad9b64da3252f429e0607.jpeg


会后,马涛接受了央视频的特邀专访,分享了关于GP闭源对国产数仓行业深远影响的见解。马涛表示:“中国科技的飞速发展,为我们国产品牌在科技强国之路上提供了前所未有的机遇。GP闭源事件,表面上看似挑战,实则为我们打造自主科技品牌、推动科技自立自强按下了加速键。”


谈及应对策略,马涛强调了三大方向:一是坚持开源理念不动摇。开源不仅是技术创新的重要驱动力,更是连接全球开发者、促进技术共享与进步的桥梁。二是利用开源优势扩大客户基础与商业版图。开源文化能够吸引全球范围内的开发者与合作伙伴,共同推动技术创新与产业升级。最后,积极适应并引领国际化竞争新态势。


面对国际市场的风云变幻,酷克数据正积极调整战略方向,以适应更加复杂多变的竞争环境。GP闭源事件促使酷克数据继续坚定走在自主创新之路,通过不断提升自身技术实力与服务质量,为全球客户提供更加安全、可靠、高效的解决方案。


02CloudberryDB 执行引擎的优化实践

演讲人:酷克数据 内核研发工程师 杨凯迪


大规模数据查询是 MPP 型数据库的核心应用场景,然而,现有的 Postgres 执行器在实际应用中已难以满足业务对大数据查询性能的需求。为此,CloudberryDB 在 Postgres 执行器的基础上进行了深度改造,显著提升了执行器在查询分析场景下的性能。


本次大会,酷克数据内核研发工程师杨凯迪发表了题为《CloudberryDB 执行引擎的优化实践》的演讲,分享了 Cloudberry 向量化引擎的实现细节,以及 CloudberryDB 执行器执行流的改造工作和并行化方面的进展。


d0d5d97b12131098e3e56d8750ead6ca.jpeg


在大数据查询分析的场景中,业务方总是期望更少的执行时间。从工程实现的角度来看,主要有 3 个优化目标:


1.减少指令数与 CPU 消耗:通过优化执行路径,减少指令数,降低 CPU 负担。


2.指令级/数据级并行:利用现代 CPU 的多核特性,实现指令级并行(如超标量流水线)和数据级并行(如 SIMD),提高执行效率。


3.多核资源利用:通过并行化技术,最大化利用多核处理器资源,缩短执行时间。


向量化引擎的实现


CloudberryDB 选择了向量化作为首要手段来加速 PostgreSQL 执行器的性能。CloudberryDB 的向量化引擎以插件形式接入,与底层列式存储(基于 Arrow 格式)紧密配合,实现了高效的数据交换和处理。通过重新实现 Postgres 的向量化算子(如 Scan、Agg、Sort、Motion 等),结合 SIMD 加速,优化了复杂数据类型的表示和计算,特别是针对 numeric 类型采用定长存储,显著提升了计算速度。


push 模型执行流改造


对比 pull 模型,push 模型控制流和数据流均自底向上,数据驱动,能更好地划分任务,具有缓存友好、数据局部性好、循环更短等优势,且对 code-gen/并行化/向量化的实现非常友好。因此,CloudberryDB 的向量化模型选择基于 push 模型进行演进。


为了优化执行,CloudberryDB 采用 pipeline 作为调度点,使调度任务包含更多的数据在寄存器中执行计算,仅在必要时进行物化。


并行化算子实现


•并行化 Join:采用两阶段构建哈希表,减少线程间数据竞争,通过 partition 策略并行化执行哈希表合并;


•并行化聚集:与并行化 Join 类似,也采用两阶段聚集,减少数据同步代价;


•排序优化:通过 mergePath 策略实现更高效的资源利用,增加了合并过程的线程利用率。


目前,CloudberryDB 已经基本实现了向量化算子的并行化。未来,CloudberryDB 将继续优化调度模型以及查询计划的生成,来进一步提升大数据查询分析的性能。


03HashData 加速大模型在企业落地应用

演讲人:酷克数据 数据科学工程师 卞传鑫


随着大模型技术的蓬勃兴起,如何以经济高效的方式构建并应用这些模型,已成为企业界竞相探索的核心议题。在本届 PostgreSQL 技术大会中,“AI 与 PostgreSQL:向量插件及智能数据处理”分论坛上,酷克数据数据科学工程师卞传鑫,发表了题为《HashData:加速大模型在企业落地应用的创新实践》的精彩演讲,全面展示了酷克数据在云原生数据仓库与 AI 技术融合方面的创新成果与前瞻布局。


111191d32223c4bd10c32398867caa15.jpeg


为解决当前大模型规模化应用面临的高成本问题,酷克数据基于 HashData 云数仓开发了下一代 In-Database 高级分析和数据科学工具 HashML,通过机器学习、深度学习及预训练大模型等技术,致力于降低 AI 技术应用门槛,为数据科学家、数据工程师、AI 应用开发者提供便利。


卞传鑫介绍到,HashML 首要设计目标就是简单易用,用户只需编写少量代码就可以完成从数据加载到数据处理,再到模型训练、服务部署和推理预测的全流程任务。HashML 功能全面,涵盖经典机器学习、主流深度学习框架及最新的大语言模型技术,支持对百亿到千亿级参数 LLM 进行微调与推理。同时,HashML 与 HashData 云原生数据库兼容,提供丰富接口及卓越性能,支持多机多卡分布式处理,且模型部署弹性可伸缩,灵活应对服务负载变化。


在产品功能布局上,HashML 精心构建了数据访问、模型算法、以及模型部署三大核心板块,全面赋能用户。


数据访问领域,HashML 对数据库访问进行了深度抽象与优化,确保操作接口设计紧贴用户习惯,与广受欢迎的 Python 库保持高度一致性,极大地降低了用户的学习曲线与使用门槛。


模型算法方面,HashML 展现出强大的兼容性与创新能力。HashML 集成 sklearn 经典算法与 xgboost、lightgbm 等梯度提升算法,满足用户多样化的建模需求。同时,HashML 支持 PyTorch、TensorFlow 等深度学习框架,让用户能够轻松构建 MLP、CNN、ResNet 等经典深度学习模型。HashML 还前瞻性地支持大语言模型,涵盖后预训练、微调及 RAG 应用等前沿技术,并基于主流开源模型,打造了从文生图到文生视频等一系列创新扩散模型 pipeline。


模型部署环节,HashML 支持多实例弹性部署,配合 RestAPI 访问接口,无论是机器学习、深度学习还是大语言模型,均可通过简洁的代码实现高效部署。HashML 的扩展式设计赋予其强大的横向扩展能力,能够轻松部署至多台机器,同时提供灵活的调度策略,确保系统在高负载下依然稳定运行。


应用支撑技术方面,卞传鑫指出,为了提升大语言型在特定领域的能力,HashML 采用两类方法增强大语言模型领域能力:RAG(检索增强生成),依托向量知识库、语言模型与 embedding 技术;及大模型微调与后预训练,提供全参数、LoRA 等主流方案。


6c59b31b2719b4c5966979ad0289af9b.jpeg


同时,HashData 云原生数仓赋能大语言模型应用的四大能力:


•模型推理与弹性部署:支持模型的多实例弹性部署,并提供了 RestAPI 访问接口。无论是机器学习模型还是深度学习模型或者是大语言模型,都可以通过简短的代码进行服务部署。另外它的扩展式设计可以轻松扩展到多台机器,并提供灵活的调度支持。


•模型微调及后预训练:在提升大语言模型在特定领域能力的同时,也对齐了人类的语言习惯。关于模型微调与后预训练,HashML 也提供了全套的解决方案,包括全参数、LoRA 等主流方法。


•非结构化数据的管理和处理:HashData 中提出了目录表用于非结构化数据的纳管,并在 HashML 中开发了一系列原始文件的解析、拆分、处理相关的工具,构建了由非结构化数据到结构化数据处理的全流程,便于后续数据的进一步使用。


•大规模分布式向量知识库:向量知识库是 HashML 工具库中的一个重要组成部分,它提供了一种有效的方式来存储和检索大规模的向量化知识。HashML 也对向量知识库模块进行了封装,只需要几行代码就可以完成向量知识库的构建与查询功能。 


应用场景方面,卞传鑫提到,基于 HashML 提供的算法能力以及服务部署,向上共开发了四个智能应用,分别是 rechat,chatdata, visgen 以及 xpilot,在此他主要介绍了 rechat 以及 chatdata 两款应用。


检索增强的智能问答 ReChat


通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题,HashML 可以基于大语言模型,快速搭建面向专业领域的的智能问答系统(ReChat)。在 ReChat 中,企业通过调用本地部署的 embedding 服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ 等)进行向量化,并存放到 HashData 形成向量知识库。


当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReChat 的典型用例包括智能客服、销售助手、文档阅读助手等,在企业有着非常广泛的应用场景。


f62fcf3e12cb68ed7d398aa505e62372.jpeg

对话式智能数据查询分析 ChatData


在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。


ea8990feef50acf197d1ab66a7e70ad9.jpeg


为了提升大语言模型的 SQL 能力,HashML 研发团队对模型进行了微调,并针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行 Ground-Truth SQL 和生成的 SQL,通过检验生成 SQL 的可执行度和比对查询结果的一致性,判断生成 SQL 的正确性,最终统计整个评估集的准确率。


评估结果显示,HD-SQL-LLaMA2 在不同难度的评估样本集上均表现良好,13B 模型准确率接近 82%,34B 模型准确率超过 88%,且仍在不断提升中。


04酷克数据荣获数据库杰出贡献奖


本届PostgreSQL技术大会上,酷克数据凭借其卓越的技术创新和对PostgreSQL开源社区的不懈贡献,荣获了“数据库杰出贡献奖”,这一殊荣不仅是对酷克数据技术实力的高度认可,更是对其在PostgreSQL生态系统中发挥重要推动作用的肯定。


1291c9113792f5eb0e0b14bfeecaa930.jpeg


作为PostgreSQL社区的杰出成员与先锋力量,酷克数据始终秉持开放共享的理念,积极将自身的技术成果回馈给PostgreSQL社区。公司技术团队不仅频繁参与社区活动,分享技术心得与最佳实践,还通过代码编写、审查、检测等方式,为PostgreSQL的持续发展贡献着自己的力量,同时也为PostgreSQL技术性能改进和提升提供了有力支持。


展望未来,酷克数据将继续以技术创新为引领,深化与开源社区的合作与交流,共同推动数据分析技术的持续发展与应用落地。我们相信,通过不懈努力与持续贡献,定能为全球用户带来更加优质、高效的数据分析体验,为数据智能时代贡献自己的一份力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/796799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机的错误计算(二十九)

摘要 (1)讨论近似值的错误数字个数。有时,遇到数字9或0, 不太好确认近似值的错误数字个数。(2)并进一步解释确认计算机的错误计算(二十八)中一个函数值的错误数字个数。 理论上,我…

《Python零基础入门》——关于PyCharm使用技巧及python基本概念

从本次文章开始,我们将学习一门新的编程语言——Python。作为最热门的编程语言,Python相对比较清晰、简单。 python主要的编译工具就是pycharm,关于pycharm的安装及python配置环境,大家可自行参考网络上的教程,本文不…

借人工智能之手,编织美妙歌词篇章

在音乐的领域中,歌词宛如璀璨的明珠,为旋律增添了无尽的魅力和情感深度。然而,对于许多创作者来说,编织出美妙动人的歌词并非易事。但如今,随着科技的飞速发展,人工智能为我们带来了全新的创作可能。 “妙…

【C++深度探索】全面解析多态性机制(二)

🔥 个人主页:大耳朵土土垚 🔥 所属专栏:C从入门至进阶 这里将会不定期更新有关C/C的内容,欢迎大家点赞,收藏,评论🥳🥳🎉🎉🎉 前言 我…

TEB局部路径规划算法代码及原理解读

TEB(Timed Elastic Band) 是一个基于图优化的局部路径规划算法,具有较好的动态避障能力,在ROS1/ROS2的导航框架中均被采用。该图优化以g2o优化框架实现,以机器人在各个离散时刻的位姿和离散时刻之间的时间间隔为顶点,约束其中的加…

MUR2060CTR-ASEMI无人机专用MUR2060CTR

编辑:ll MUR2060CTR-ASEMI无人机专用MUR2060CTR 型号:MUR2060CTR 品牌:ASEMI 封装:TO-220 批号:最新 最大平均正向电流(IF):20A 最大循环峰值反向电压(VRRM&#…

tkinter-TinUI-xml实战(12)pip可视化管理器

引言 pip命令行工具在平常使用方面确实足够简单,本项目只是作为TinUI多界面开发的示例。 当然,总有人想用GUI版pip,实际上也有。不过现在,我们就来手搓一个基于python和TinUI(tkinter)的pip可视化管理器。…

线程控制

对线程的控制思路和进程相似,创建、等待、终止,只需要调用接口就行。但是在Linux下没有线程的概念,因为Linux的设计者认为,线程是一种轻量级的进程,毕竟创建线程只需要创建PCB。因此Linux中使用多线程必须使用第三方pt…

深入Linux:权限管理与常用命令详解

文章目录 ❤️Linux常用指令🩷zip/unzip指令🩷tar指令🩷bc指令🩷uname指令🩷shutdown指令 ❤️shell命令以及原理❤️什么是 Shell 命令❤️Linux权限管理的概念❤️Linux权限管理🩷文件访问者的分类&#…

深度学习中的FLOPs补充

学习了博主的介绍(深度学习中的FLOPs介绍及计算(注意区分FLOPS)-CSDN博客)后,对我不理解的内容做了一点补充。 链接放到下边啦 https://blog.csdn.net/qq_41834400/article/details/120283103 FLOPs:注意s小写,是floa…

车流量统计YOLOV8+DEEPSORT

车流量统计,YOLOV8NANODEEPSORT资源-CSDN文库 车流量统计YOLOV8DEEPSORT,目前支持PYTHON,C开发 PYTHON版本,需要YOLOV8,依赖PYTORCH C版本,只需要OPENCV

4K60无缝一体矩阵 HDMI2.0功能介绍

关于GF-HDMI0808S 4K60无缝一体矩阵的功能介绍,由于直接针对GF-HDMI0808S型号的具体信息较少,我将结合类似4K60无缝HDMI矩阵的一般功能特性和可能的GF-HDMI0808系列产品的特点来进行说明。请注意,以下信息可能不完全针对GF-HDMI0808S型号&…

【Vscode】显示多个文件 打开多个文件时实现标签栏多行显示

Vscode显示多个文件&VSCode打开多个文件时实现标签栏多行显示 写在最前面一、解决打开文件的时候只显示一个tab的办法解决办法如下: 二、文件标签栏多行显示设置步骤: 🌈你好呀!我是 是Yu欸 🌌 2024每日百字篆刻时…

记录些Redis题集(3)

分布式锁 分布式锁是一种用于在分布式系统中实现互斥访问的机制,它可以确保在多个节点、或进程同时访问共享资源。如果没有适当的锁机制,就可能导致数据不一致或并发冲突的问题。 分布式锁需要的介质 需要一个多个微服务节点都能访问的存储介质&#…

实战演练-2021年电赛国一之三端口DC-DC变换器

文章目录 前言一、题目二、题目分析1、题目要求解析2、题目方案选定方案一(使用buck-boost电路+双向DC-DC电路(前端))方案二(使用同步整流Boost升压电路+双向DC-DC电路(前端))方案三(使用同步整流Boost升压…

打造你的智能家居指挥中心:基于STM32的多协议(zigbee、http)网关(附代码示例)

1. 项目概述 随着物联网技术的蓬勃发展,智能家居正逐步融入人们的日常生活。然而,市面上琳琅满目的智能家居设备通常采用不同的通信协议,导致不同品牌设备之间难以实现互联互通。为了解决这一难题,本文设计了一种基于STM32的多协…

我的AI音乐梦:ChatGPT帮我做专辑

​🌈个人主页:前端青山 🔥系列专栏:AI篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来ChatGPT帮我做音乐专辑 嘿,朋友们! 想象一下,如果有个超级聪明的机器人能帮你写…

【Unity学习笔记】第十九 · 物理引擎约束求解解惑(LCP,最优,拉格朗日乘数法,SI,PGS,基于冲量法)

转载请注明出处: https://blog.csdn.net/weixin_44013533/article/details/140309494 作者:CSDN|Ringleader| 在学习物理引擎过程中,有几大问题一直困扰着我: 约束求解到底是LCP还是带约束最优问题?约束求解过程中拉格朗日乘数法…

春招冲刺百题计划|堆

Java基础复习 Java数组的声明与初始化Java ArrayListJava HashMapJava String 类Java LinkedListJava Deque继承LinkedListJava SetJava 队列优先队列:第二题用到了 第一题:215. 数组中的第K个最大元素 可以直接使用Arrays.sort()快排,然后return nums…

修正版头像上传组件

修正版头像上传组件 文章说明核心源码展示运行效果展示源码下载 文章说明 在头像剪切上传一文中,我采用div做裁剪效果,感觉会有一些小问题,在昨天基于canvas绘制的功能中改进了一版,让代码变得更简洁,而且通用性相对高…