产品解读 | 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

图片

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

图片

传统湖仓集混合架构,需要部署多个平台进行数据存储造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差数据跨平台流转中还容易导致不⼀致影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低

图片

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

图片

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

图片

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求

图片

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。

  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。

  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。

  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效  相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。

  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。

  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。

  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。

  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。

  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。

而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升

多模型融合

加速业务创新

图片

随着业务的复杂化和多样化,企业需要存储和处理不同模型的数据,比如图数据、时序数据、时空数据等。

TDH在2020年正式发布多模型数据统一处理技术后,每年都会发布新的模型,来满足不同业务场景和不同分析的需求。

多模型能力升级,全新发布分布式向量数据库Transwarp Hippo

TDH9.3在原多模型能力基础上新增分布式数据库Transwarp Hippo,实现10种存储引擎支持11种数据模型。

同时对原存储引擎进行升级,提供更高的性能和更强的功能,帮助企业用户满足更多以及要求更高的业务场景。

作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,高效地解决向量相似度检索、高密度向量聚类等问题。

与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足海量向量数据的高实时性查询、检索、召回等场景。

在大模型场景中,通过预处理将各种类型的文档、图片、音视频等非结构化数据转化为多维向量数据存储在Hippo中,可以很好地解决大模型无法内置快速变化的信息,输入能力受限等问题。

通过将Hippo和星环分布式图数据库StellarDB、大模型结合,可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更精准更深入的业务场景应用。

多模型统一技术架构

如上述所说,不同的数据模型往往需要独立的平台来处理,而这些不同的产品在接口标准上不一致,开发者和业务分析人员需要掌握不同的语言去访问、使用、操作这些数据。

同样,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自的生态中难以互通。

在业务上如果涉及到了跨模型的混合业务,需要把数据从一个平台导入到另一个平台中,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。

TDH在2020年5月就实现多模型数据的统一处理技术,支持同一平台一站式处理多种不同的数据模型。

在TDH多模型的统一架构下,实现系统架构的四层统一。

底层基于容器化技术实现资源的统一调度管理,保障资源隔离互不影响。

通过分布式存储管理系统实现了多种模型数据的统一存储管理,统一的计算引擎自动匹配算法以提升不同数据模型的处理能力。

上层通过统一的数据操作/语言来统一处理不同业务的请求。

用户只需一个SQL就可以实现不同数据模型的操作和查询,模型转化流转以及跨模型关联分析,大大简化了开发复杂度,简化用户操作。

同时数据也仍保留在原存储引擎中,也不用对数据进行导入导出或者转换,不会存在数据不一致或数据冗余存储的问题,具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。

图片

跨模型关联分析

基于TDH多模型统一技术架构,用户不需要独立建设不同的数据

分开运维管理,在做数据分析时也不需要单独连接不同数据库,开发不同的脚本。

而是基于统⼀数据管理映射为不同的表,并且针对不同模型的特性,实现模型特有的语法。

如图数据检索语法,⽂本搜索语法来满⾜不同模型的处理需求,通过统⼀的计算引擎将多种模型的处理和关联统一处理。

工业时序设备监控与分析(时序数据+关系型数据) 

工业IoT设备实时产生大量的时序数据,对于这类数据具有数据量大、生成频率高等特点,要求存储模型有较⾼的压缩率和实时写⼊能⼒,通常企业会使用专门的时序模型。

在设备监测和分析时,除了时序数据外,⽤户往往需要结合设备的⼀些其他信息。

例如设备来源、故障记录、保养记录来综合分析设备的运⾏状况,这些数据通常存储在关系型数据库中,因此需要时序数据和关系型数据关联分析的能⼒。

图片

航空数据分析(时空数据+关系型数据)

航空数据分析场景中,航空轨迹数据⼀般包含了⼤量的坐标点位信息,通常存储在时空模型中。

在航空轨迹分析中,除了时空数据外,往往也需要结合航班的其他信息例如起降时间、机场信息等存储在关系型数据库中的数据进⾏综合的分析。

图片

基于TDH多模型统⼀技术,用户只需一句SQL就可以将多种模型数据直接关联分析,大幅降低了开发的复杂度,避免了复杂的数据流转,提升了分析效率。

融合开放

国产化替代平滑升级

图片

TDH是星环科技自主研发的大数据基础平台,根据工信部电子第五研究所代码扫描测试报告,TDH 的1200万行代码里自研代码率超过70%。

区别于开源及封装产品,不能自主可控很多组件受美国法律限制,不能规避“被制裁”风险。部分产品有license风险,如ES已经改开源license策略了,后续商用存在一定的风险。

在兼容性方面,TDH基础存储和计算组件兼容CDH/HDP,迁移成本低,同时提供迁移工具帮助用户将原系统里的数据迁移到TDH,并可以进行自动数据校验,保证整个流程平滑、安全进行。

此外,在CDH等国外产品迁移方面,TDH具有大量成功实践不存在迁移风险。

融合开放,平滑迁移

对于SQL类业务,TDH9.3持续优化SQL兼容性在Oralce、TD、DB2、Hive语法上,保证SQL的平滑迁移。

对于API对接开发类业务,TDH完成了与ES、Spark、Flink等的适配,保障这类应⽤平滑迁移。

同时,TDH也提供与之对应的自研产品,提供更先进的技术架构、更高的性能、更好的稳定性以及易用性等。

图片

在⼯具方面,TDH不仅与如Sqoop、Flume、Logstash等做了适配,并能提供全套的工具组件

如SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式分析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

图片

结构化数据自动归档

在实际迁移中,很多用户会继续使⽤开源数据格式。

比如ORC、Text,但这些开源格式不具备事务能⼒,无法进⾏小文件合并,需要⽤户根据文件大小,重新建表导数,在表多、数据量⼤的情况下,性能开销较大,严重的会影响业务的正常进行。

TDH 9.3新增了结构化数据自动归档能力,能够支持并自动合并开源的ORC、Text,降低了用户在开源⾮事务格式上的小文件运维成本。

合并过程中,计算资源独立,对业务透明无影响,并且可以灵活配置合并策略,配合监控功能可以完整监控小文件合并过程和状态。

国产化生态适配,针对性优化性能提升

TDH已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾CPU,麒麟、统信等操作系统。

同时同一集群可支持基于ARM与X86服务器混合部署并有落地案例,最大化利用硬件资源,让用户实现逐步替换。

在性能上,TDH根据不同硬件和场景进⾏相应的优化,充分发挥国产ARM架构多核CPU的优势,部分场景下性能与X86架构相当。

以上就是星环科技大数据基础平台TDH 9.3,帮助企业简化系统复杂度,降低运维成本,让⼤数据开发者更⾼效地进行数据价值挖掘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/347176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Kafka】Kafka安装:Linux本地和Docker

目录 Linux本地安装kafkajava环境配置Zookeeper的安装配置Kafka的安装与配置生产与消费 Docker安装kafkaZookeeper安装Kafka安装 Linux本地安装kafka java环境配置 1、上传jdk-8u261-linux-x64.rpm到服务器并安装: rpm -ivh jdk-8u261-linux-x64.rpm2、配置环境变…

WorkPlus移动应用管理平台,助力企业实现高效移动办公

在移动办公成为当今工作方式的主流趋势下,管理和运营企业移动应用成为了提高工作效率和数据安全的重要环节。而移动应用管理平台作为实现移动办公高效管理的关键工具,WorkPlus以其领先的性能和全面的功能,助力企业实现高效移动办公。 为何选…

DP读书:在常工院的2023年度总结

DarrenPig的年度总结 这是最好的时代,这是最坏的时代。——狄更斯 这是最好的时代,这是最坏的时代。——狄更斯 这是最好的时代,这是最坏的时代。——狄更斯 一、2023我的感受 不就是2023吗,不就是一年的经历吗,大家…

如何使用Docker部署导航页工具Dashy并实现任意浏览器远程访问——“cpolar内网穿透”

文章目录 简介1. 安装Dashy2. 安装cpolar3.配置公网访问地址4. 固定域名访问 简介 Dashy 是一个开源的自托管的导航页配置服务,具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。你可以将自己常用的一些网站聚合起来放在一起,形成自己的导航…

小红书商品笔记发布流程,如何避免盘营销

随着平台营销内容不断被管制,商品笔记慢慢出现在了人们的视野,这同时也意味着达人和品牌方们,可以名正言顺的在笔记内容中植入产品。商品链接的开通意味着,不管是达人还是品牌转化率都会进一步提升,今天来马文化传媒和…

AIGC:让生成式AI成为自己的外脑(文末送书)

🌈个人主页:聆风吟 🔥系列专栏:数据结构、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 📋前言一. 什么是AIGC?二. AIGC如何运作?2.1 步骤一:收集数据2.…

仅使用 Python 创建的 Web 应用程序(前端版本)第06章_登录页面

从本章开始,我们将创建每个页面。 本栏的例子 可以访问这里, WTS 首先是登录页面。 完成后的图像如下 创建过程如下 No类型内容1Model创建继承BaseDataModel的数据类User、Session2MockDB创建用户表并添加管理员/成员用户3Service创建AuthAPIClient、UserAPIClient4Page定义…

利用Burp Suite观察https通联

对使用 HTTPS 协议的应用程序进行测试时,常使用 bp 观察流量,为能成功建立HTTPS联接,在将bp设置居代理的同时,还必须导入bp伪证书,这样才能修改请求和响应,加密和解密流量,成功模拟浏览的各种动…

Maven构建工具:Java项目的不可或缺之选

引言 在Java开发领域,构建工具是项目中至关重要的一环。Maven(Maven Apache)是一个强大的构建工具,用于管理项目的构建、依赖和文档等方面。本篇博文将介绍如何配置和使用Maven来构建和管理Java项目。 第一部分:Mave…

数据脱敏(三)脱敏算法-遮盖算法

脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据 遮盖脱敏是一种数据脱敏技术,它的主要目的是通过隐藏或替换敏感信息来保护数据安全,同时保持数据的其他特性不变,以便于数据的进一步使用和分析。这种脱敏技术适…

九州金榜|过年期间如何合理规划孩子学习?

随着春节的临近,家家户户都沉浸在喜庆的氛围中。对于孩子们来说,过年意味着热闹、欢笑和丰盛的美食。然而,即使是过年,学习也不应被忽视。九州金榜家庭教育将和大家一起探讨如何合理安排过年期间孩子的学习。 一、保持学习持续性 …

探索编程世界的利器!选择哪个IDE,成就新手开发之路?

文章目录 一、IDE的概念和作用IDE是什么?为什么说选择一款IDE对开发者来说可以起到事半功倍的作用? 二、当下备受推崇的IDE有哪些?1. Visual Studio Code2. PyCharm3. IntelliJ IDEA 三、如何选择一个适合自己的IDE?四、IDE的使用…

React-Native项目 — 自定义字体的使用

系列文章目录 React-Native环境搭建(IOS)React-Native项目 — 关于IOS知识储备React-Native项目工程搭建(开发模板搭建)React-Native项目矢量图标库(react-native-vector-icons) 目录 系列文章目录前言一、…

Linux多线程——生产消费者模型

Gitee仓库:阻塞队列、环形队列 文章目录 1. 死锁1. 1 死锁概念1.2 死锁的四个必要条件1.3 解决死锁 2. 线程同步3. 条件变量3.1 举个例子3.2 接口 4. 生产消费者模型4.1 什么是生产消费者模型4.2 基于阻塞队列的生产消费模型4.3 环形队列(信号量&#xf…

electron-vue更新到最新版本无法使用解决

更新版本: 网上说使用yarn upgrade-interactive --latest但是我这无法运行 所以我是使用以下命令进行更新的,不要急一条一条执行: yarn add electron yarn add electron-builder yarn add electron-debug yarn add electron-devtools-insta…

数据目录驱动测试——深入探讨Pytest插件 pytest-datadir

在软件测试中,有效管理测试数据对于编写全面的测试用例至关重要。Pytest插件 pytest-datadir 提供了一种优雅的解决方案,使得数据目录驱动测试变得更加简单而灵活。本文将深入介绍 pytest-datadir 插件的基本用法和实际案例,助你更好地组织和利用测试数据。 什么是pytest-da…

centos 安装mysql5.7教程

一,配置yum mysql5.7安装源 配置yum mysql5.7安装源 yum localinstall https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm 配置mysql5.7安装源成功 查看配置成功的安装源 yum repolist enabled | grep "mysql*" 执行后看到已配…

matlab窗函数-hann窗和hamming窗函数

窗函数的作用 在时域上,窗函数可以看作是对原始信号进行截断或调制的加权函数。这些窗函数通常在时域上是有限的宽度,并且具有对称性,如矩形窗、汉宁窗、汉明窗和布莱克曼窗等。例如,汉明窗是一种对称窗函数,它可以用…

揭秘淘宝图片搜索商品接口:一键上传,海量相似商品即刻到手!

淘宝图片搜索商品接口技术详解 一、概述 淘宝图片搜索商品接口是淘宝开放平台提供的一项创新功能,允许第三方开发者通过上传图片进行商品搜索。通过使用这个接口,开发者可以快速地获取与图片相似的商品信息,为消费者提供更精准的购物体验。…

【嵌入式学习】C++QT-Day1-C++基础

思维导图&&笔记 见我的博客&#xff1a;https://lingjun.life/wiki/EmbeddedNote/19Cpp 作业&#xff1a; 提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 要求使用C风格字符串完成 #include <iostream&…