官宣|Apache Paimon 毕业成为顶级项目,数据湖步入实时新篇章!

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

Apache 官方博客发布了 Apache Paimon 毕业的消息:


(Apache 官网部分截图)

Apache Paimon 成长历史

Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。 之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。

2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache Paimon 成为 Apache 顶级项目。

孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。

Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。

核心能力

Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。

在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:

实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。

湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。

全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。

湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。

Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。

毕业寄语

衷心祝贺 Paimon 社区毕业成为 Apache 顶级项目!作为项目的孵化 Champion 和导师,很高兴看到 Paimon 社区通过践行 Apache Way 发展的越来越繁荣。在孵化期间,Paimon 不仅发布了多个功能丰富且具备创新性的版本,还营造了一种包容的氛围,吸引了很多新的贡献者加入社区。祝愿 Paimon 百尺竿头更进一步,成为世界级的明星项目,推动实时数据湖技术的持续发展。
—— 李钰 ASF Member and Incubator Mentor,阿里云 EMR 负责人

祝贺 Paimon 毕业并成为 ASF 的顶级项目。事实上,Paimon 已经开始帮助阿里巴巴对 Lakehouse 架构进行实时更新和分析,此外,我们还将在未来利用 Paimon 为 AI 业务服务。
—— 王峰 阿里云开源大数据负责人

热烈祝贺 Apache Paimon 顺利毕业,这是一个重要的里程碑,是对 Paimon 社区开发者的肯定。我有幸参与到 Paimon 从 Flink Table Store 到独立孵化,到顺利毕业的整个过程,切身体会到社区开发者的务实和极致。祝愿 Apache Paimon 在未来的发展中解决更多的数据湖业务场景,取得更大的成功。
—— 张光辉 字节跳动流式计算负责人

祝贺 Paimon 从孵化器中毕业成为 Apache 开源顶级项目!Apache Paimon 是一款高性能、低延迟的实时数据湖,在蚂蚁公司风控、五福等场景应用中,显著降低了数据计算、存储成本,明显提升了数据开发效率。祝愿 Apache Paimon 社区发展越来越好,彻底改变当前流批分离的数据开发模式,成为数据湖领域的领导者。
—— 李志刚 蚂蚁集团实时计算引擎负责人

恭喜 Paimon 顺利毕业,我们从早期就开始应用 paimon 到我们的湖仓建设之中,得益于 Paimon 简单、流批一体等特性在我们的数据湖仓建设中发挥了重要作用,极大的简化了湖仓业务的开发流程。我们深信 Paimon 毕业后会为更多的企业的数据湖仓带来便利,为湖仓发展作出更多的创新。
—— 吴祥平 同程旅行大数据计算负责人

我很高兴 Paimon 的社区在过去的一年里变得越来越强大,大量的开发者和用户加入了这个社区,经过社区的努力,Paimon 已经超出了我的想象,在许多企业中拥有非常丰富的使用场景。希望 Paimon 能在未来成为统一的湖存储底座,满足离线批计算、实时流计算与 OLAP 计算。
—— 李劲松 Apache Paimon PMC Chair


更多内容

阿里云提供的基于Flink和Paimon的云上流式湖仓解决方案,旨在搭建高效、低延时的流式数据湖仓。此方案利用Flink的实时计算能力,结合Paimon的高效更新能力,实现数据在数仓分层间的实时流动。其优势包括将数据变更的传递延时从小时级甚至天级降低至分钟级,无需覆写分区即可直接接受变更数据,从而极大地降低了数据更新与订正的成本。此外,ETL链路的逻辑基于Flink SQL实现,统一了模型并简化了架构,提高了数据处理效率。点击下方链接了解更多详情。

点击:基于Flink+Paimon搭建流式湖仓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/554374.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【剪映专业版】10时间线工具:主轨磁吸、自动吸附、联动、预览轴、全局缩放预览

视频课程:B站有知公开课【剪映电脑版教程】 主轨:有封面标志的轨道才是主轨。 主轨磁吸:开启后,在主轨上移动素材,自动向前磁吸,在其他轨道上移动无此效果;关闭后,不自动向前磁吸&…

艾迪比皮具携手工博科技SAP ERP公有云,打造数字化转型新标杆

4月1日,广州市艾迪比皮具有限公司(以下简称“艾迪比”)SAP S/4HANA Cloud Public Edition(以下简称“SAP ERP公有云”)项目正式启动。双方项目组领导、成员出席本次项目启动会,为未来项目的顺利实施打下坚实…

Python程序设计 元组和集合

教学案例七 元组和集合 1. 根据年月日计算周几 根据输入的年号、月号、日号,计算是周几(中文、英文) 蔡勒公式 通过蔡勒(Zeller)公式可计算星期几 w:星期; w对7取模得:0-星期日,1-星期一,2-星期二,3-星期三,4-星期四,5-星期五,6-星期六 c&…

【hive】lateral view侧视图

文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManualLateralView 1.介绍2.语法3.code demo1)单重侧视图2)多重侧视图3)tips:lateral view outer 1.介绍 lateral view也叫侧视图,属…

【electron3】electron将数据写入本地数据库

安装 yarn add sqlite3 --save连接并调用数据库,创建表 createDB.ts文件内容 const sqlite3 require(sqlite3) const NODE_ENV process.env.NODE_ENV const path require(path) const { app } require(electron) let DB_PATH path.join(app.getAppPath(), /…

LDF、DBC、BIN、HEX、S19、BLF、asc、csv、ARXML、slx等(未完待续)

文章目录 如题如题 LDF是LIN报文格式文件,把这个直接拖到软件里面,可以发报文和接收报文 DBC是CAN报文格式文件,把这个直接拖到软件里面,可以发报文和接收报文 BIN文件烧录在BOOT里面(stm32),有人喜欢叫固件,这个固件就是bin文件,bin文件比hex文件体积小 其实BOOT也…

Android apk包使用360加固工具的加固步骤

1,准备好已经签名打包的apk包。 2,在360加固官方网站下载加固exe软件。三六零天御-企业移动应用安全一站式服务平台 3,步骤一,添加加固包,进行加固,并输出加固包: 4,步骤二&#…

预算不足千元SSL证书该怎么选?

随着互联网安全概念日渐深入人心,越来越多的企业或个人为自己的网站加装SSL证书;那对于个人或者小小微企业,预算不足千元的情况下该怎么选择SSL证书呢?可以从以下几个方面进行考量,以确保在有限的预算内获得满足基本安…

Linux编辑器-vim的使用

vim的基本概念 vim的三种模式(其实有好多模式,目前掌握这3种即可),分别是命令模式(command mode)、插 入模式(Insert mode)和底行模式(last line mode),各模式的功能区分如下&#…

苹果开发初学者指南:Xcode 如何为运行的 App 添加环境变量(Environmental Variable)

概览 Xcode 15 在运行 SwiftUI 代码时突然报告如下警告: Error: this application, or a library it uses, has passed an invalid numeric value (NaN, or not-a-number) to CoreGraphics API and this value is being ignored. Please fix this problem. 不仅如此…

李沐45_SSD实现——自学笔记

主体思路: 1.生成一堆锚框 2.根据真实标签为每个锚框打标(类别、偏移、mask) 3.模型为每个锚框做一个预测(类别、偏移) 4.计算上述二者的差异损失,以更新模型weights 先读取一张图像。 它的高度和宽度分别为561和728像素。 %matplotlib inline import …

NVM下载、NVM配置、NVM常用命令

NVM(nodejs版本管理切换工具)下载、配置、常用命令 0、NVM常用命令 nvm off // 禁用node.js版本管理(不卸载任何东西) nvm on // 启用node.js版本管理 nvm install <version> // 安装node.js的命名 version是版本号 例…

良友:献上今天(打开心窗说亮话)- 沟通篇

目录 一 二 三 四 五 六 七 八 九 十 十一 十二 十三

【Python小游戏】植物大战僵尸的实现与源码分享

文章目录 Python版植物大战僵尸环境要求方法源码分享初始化页面&#xff08;部分&#xff09;地图搭建&#xff08;部分&#xff09;定义植物类 &#xff08;部分&#xff09;定义僵尸类&#xff08;部分&#xff09;游戏运行入口 游戏源码获取 Python版植物大战僵尸 已有的植…

vscode调试文件(C++,ROS和cmake文件)

VsCode调试文件 参考文档&#xff1a; code.visualstudio.com/docs/editor/variables-reference code.visualstudio.com/docs/editor/tasks 主要修改task.json下的"args"、launch.json中的"program",“args” 注意task.json中的label以及launch.json中…

OpenCV 学习笔记2 C++

1.图像直方图 直方图&#xff08;Histogram&#xff09;是图像处理中常用的工具&#xff0c;它表示图像中每个像素强度值的分布情况。在OpenCV中&#xff0c;可以使用 cv::calcHist 函数来计算图像的直方图。 图像直方图是一种展示图像像素强度分布的统计图表。它显示了图像中…

市场份额第一!博睿数据持续领跑中国APM市场

近日&#xff0c;全球领先的IT市场研究和咨询公司IDC发布《中国IT统一运维软件产品市场跟踪报告&#xff0c;2023H2》。报告显示&#xff0c;2023下半年博睿数据以 17.6%的市场份额蝉联 APM(应用性能监控)市场第一。2023年全年博睿数据以18.8%的市场份额持续领跑中国APM市场。 …

实现联系人前后端界面,实现分页查询04.15

实现联系人前后端界面&#xff0c;实现分页查询项目包-CSDN博客 项目结构 数据库中建立两个表&#xff1a; 完整的后端目录 建立联系人People表&#xff0c;分组Type表&#xff0c;实现对应实体类 根据需求在mapper中写对应的sql语句 查询所有&#xff0c;删除&#xff0c;添…

网工交换基础——Access、Trunk、Hybrid处理VLAN的过程

一、VLAN帧格式&#xff1a; 通过Tag区分不同VLAN。打tag/剥离tag都有交换机接口进行。 1.接收方向&#xff1a;不会进行tag的剥离/弹出&#xff08;永远不会剥离VLAN Tag&#xff09;。 2.交换机内部&#xff1a;处理的都是带Tag的数据帧。 交换机开机&#xff0c;默认生成树…

振弦式土压力计性能评估指南

振弦式土压力计是一种常用的岩土工程监测仪器&#xff0c;主要用于测量土体中各点的土压力变化。在长期的监测过程中&#xff0c;保持土压力计的性能稳定与准确至关重要。因此&#xff0c;定期检查和确定振弦式土压力计的性能是否正常成为了一项必要的工作。本文将详细介绍如何…