【星环社区版TDH2024年度大事件】全新版本?全新组件?性能提升10倍?

TDH社区版家族迎来新成员

不知不觉社区版已经陪伴大家将近两年的时间了,在这两年里收获到了很多认可,同时也收获到了一些建议与意见,比如资源成本的问题。在去年我们发布了TDH社区开发版,仅需单台服务器即可一键安装部署Inceptor关系型分析引擎以及Hyperbase NoSQL宽表数据库,降低资源成本的同时充分提升了开发效率。

发布后获得了很多用户的关注与喜欢。为了进一步满足用户在多样化数据检索以及使用图模型探索复杂的关联关系等方面的需求,此次社区开发版正式推出Scope搜索引擎以及StellarDB图数据库。

image.png

社区开发版让众多开发爱好者可以0成本、低门槛快速的构建数据开发环境,无论您是想快速地体验企业级产品功能,亦或是想要学习了解相关技术,社区开发版都能很好地满足您的需求。

  • 开箱即用:Scope社区开发版及StellarDB社区开发版同样采用了all-in-one全内置设计的产品包形式,将各类核心服务深度整合于一体,开箱即可用。免去了平台安装的步骤,只需三步即可一键启动。用户无需花费大量时间和精力来进行环境配置、安装部署,平台预先设置了最佳的默认参数配置,确保了用户在部署时能享受到前所未有的简便快捷;
  • 低成本:社区开发版充分降低了用户的使用门槛以及资源成本,单台服务器即可一键部署。自研的统一SQL引擎更是进一步降低了用户的整体学习成本和应用开发门槛;
  • 企业级管理套件:社区开发版同样配备了企业级管理套件,比如对所有组件与服务进行统一管理的平台Manager、全方位监控系统负载与任务运行状况的平台监控软件Aquila Insight、提供身份认证与精细化权限安全管理软件Guardian。通过完备的管理组件,用户得以全面而精确地把握产品环境整体的运行情况,真正做到运维无忧。

以下为相关资源链接:

  • 产品下载地址: 下载官网
  • 产品安装教程: 安装手册(内含视频教程)
  • 产品升级教程: 升级手册(内含视频教程)
  • Scope使用手册: 手册
  • StellarDB使用手册: 手册
  • 【0-1系列】快速了解搜索引擎Scope
  • 使用图数据库进行人物关系探索Demo示例及教程
  • 使用图数据库进行反洗钱之银行转账流水数据分析

版本全线更新,全面解决小文件、数据倾斜等问题

TDH社区开发版以及社区版让众多的开发爱好者可以“0成本”“低门槛”,快速的构建数据开发环境。无论用户是想快速体验企业级产品功能还是想要学习了解相关技术,都能够很好的满足用户的需求。

此次社区版家族还针对版本做了更新。

新版本特性可查看: ReleaseNotes

image.png

image.png

更新点1. 小文件问题救星来了

大数据场景下会产生海量文件,随着每日增量数据的插入以及可能的数据重复插入,HDFS上的文件数与日俱增,达到千万甚至上亿的级别。当小文件过多时,将会导致长GC、OOM、集群不稳定,增加计算资源的开支等一系列问题。因此小文件治理是必要的也是迫切的。

星环产品针对不同表格式均有对应的Compact机制,譬如针对Holodesk表用户可以使用Compact Service(小文件合并专用服务)进行小文件合并任务,该服务在组件级别做了隔离,开启后不会影响到Quark的查询计算性能,合并效果更好。

但是在Inceptor跑批场景下会涉及ORC等非事务表,其不像事务表有文件合并的逻辑。而且,开源产品的方案通常是在任务运行结束后再去起一个Job执行合并任务,但是在这个阶段,表无法对外提供服务,只能读不能写,相关业务会受到影响。

所以星环采用了全新的技术,针对这个场景做了设计了新的算法,在任务运行过程中动态的执行小文件合并操作,能够确保在合并过程中Quark端的业务,包括表的读,写,删除等操作能够不被长时间阻塞,并成功执行不报错。

社区版今年将企业版针对非事务表小文件治理方面的功能Galactus做了引入,社区版用户也可以高效治理自己集群内的小文件,无需担心因为处理不及时或有疏漏影响到业务系统。更多原理解析及使用教程可查看: Text/ORC非事务表合并最佳方式

除了非事务表小文件更新的能力之外,社区版此次也引入了归档分区功能,针对一些较少访问及更改的历史数据及分区信息,用户可以选择跨分区进行合并,从而进一步的去减少存储开销、元数据管理的开销以及处理时的任务调度开销。 归档分区介绍及使用方法

更新点2. 数据倾斜治理好帮手

数据倾斜指的是说在并行处理海量数据的时候,单个task上需要处理大量的数据。一些处理节点会比其他节点需要更长的时间运行才能完成数据计算,这样既限制了并行处理的效率,也造成了空闲处理节点的资源浪费,系统将无法充分利用节点进行并行处理,十分影响性能和效率。

当在计算过程中出现数据倾斜的问题时,通常可以通过采用针对倾斜的key单独处理或MapJoin等方式进行处理。但是比如像MapJoin主要适用于大小表关联的情况。

社区版此次针对大表与大表之间进行关联发布了新的SkewJoin功能,可以在一定程度缓解大表关联场景下的数据倾斜问题。

更多原理解析及使用教程可查看:SkewJoin原理解析及使用介绍

更新点3. 全新Manager

Manager是保障集群稳定运行最高效的方式,它为底层每个核心组件都提供了强大的统一管理及运维能力。所以这次Manager针对UI,监控服务的集成也做了全新的优化升级,解锁新增了各项创新功能之外,也做了系统范围内的性能提升。

比如说开源产品在管理大集群方面一直以来都存在一些挑战,社区版在管理集群的能力上跟企业版保持了一致,所以这次也针对大集群下的集群安装,节点上下线的管理,以及服务的配置,启动等方面做了全方位的性能提升,操作速度更快也更稳定了。即使是数百上千个节点,在生产上也不用担心。

更多Manager新版本特性可查看: ReleaseNotes

TDH社区订阅版迎来最强辅助,TDS开发套件强势来袭

企业在信息化过程中积累了大量的业务系统和数据,TDH社区订阅版的发布,为企业在整合已有的海量多维度、多样化数据、数据统一化等方面的业务需求提供了有力支持。那么在构建数据仓库或数据湖的过程中,除了需要构建统一的计算和存储平台,进行统一的元数据管理之外,利用数据开发套件支持数据汇聚和开发也是企业数据平台建设过程的关键。

星环科技大数据开发工具 Transwarp Data Studio (TDS)为企业提供了一个一站式统一的数据开发平台,各个套件可以支持多个场景的使用需求,如数据开发场景、数据治理场景或者综合性的数据中台场景。针对更加细化的细分场景如任务流调度、血缘分析或数据资产门户等,TDS可以支持任意组件组合的形式,提供产品能力服务。

此次社区订阅版上架的TDS数据开发套件(SQLBook/Workflow/Transporter)提供了数据集成、SQL开发和任务调度的能力,帮助企业将数据归集到数据仓库和数据湖,可以更高效地完成数据统一化。

开发套件能力演示视频

image.png

image.png

有关更多详细的产品能力介绍,感兴趣的读者可访问 TDS平台各功能能力一览 进一步查看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726055.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

zip文件上传到linux服务器文件大小发生变化

在传一个文件到服务器的时候,第一次传完看见大小不一样(服务器中du命令查看大小796596MB)就重传了一下,还是大小不一样,就查了下。 查了下有以下原因: 文件系统的不同: 原因:不同的…

12.2 Go 编写测试代码

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Spring之IoC(容器配置、Spring坐标导入、获取bean)

这里的话,因为博主学习时间有限,并没有实际去操作,只是学习和了解一个大概的流程。 目录 一、引言 1、管理什么?(对象:Service、Dao ...) 2、如何将被管理的对象告知 IoC 容器?(用…

Linux内核编程(六)平台总线plantform驱动模型

本文目录 前述:为什么引入平台总线模型一、知识点1. 什么是平台总线模型2. 平台总线模型使用3. 平台总线是如何工作的4. 平台总线模型的优点 二、平台总线设备层1. 常用API(1) 注册一个平台设备(2) 注销一个平台设备&a…

2748. 美丽下标对的数目

题目 给定一个下标从 0 开始的整数数组 nums。如果下标对 (i, j) 满足 0 ≤ i < j < nums.length&#xff0c;且 nums[i] 的第一个数字与 nums[j] 的最后一个数字互质&#xff0c;那么认为 nums[i] 和 nums[j] 是一组美丽下标对。 对于两个整数 x 和 y&#xff0c;如果…

无忧易售新功能:集成图片库智能图片翻译,跨越语言障碍

在电商全球化的浪潮中&#xff0c;跨越语言的障碍&#xff0c;让产品图像说话&#xff0c;成为了商家致胜的关键。"无忧易售ERP"推出集成图片库与图片翻译功能的全新升级&#xff0c;为全球电商提供一站式解决方案&#xff0c;让商品跨越国界&#xff0c;沟通无界。 …

使用二进制安装安装docker

在一些情况下无法使用yum安装docker下面写了一个使用二进制安装docker的文档 官网下载地址https://download.docker.com/linux/static/stable/x86_64/ 可以按需求下载 wget https://download.docker.com/linux/static/stable/x86_64/docker-20.10.10.tgz 下载包 tar xf dcker…

计算机网络 —— 应用层(DHCP)

计算机网络 —— 应用层&#xff08;DHCP&#xff09; 什么是DHCPDHCP工作过程DHCP DISCOVERDHCP OFFERDHCP RQUESTDHCP ACK DHCP租约机制中继代理工作原理功能与优势 我们今天来计网的DHCP&#xff1a; 什么是DHCP DHCP&#xff08;Dynamic Host Configuration Protocol&…

Python11 使用爬虫实现图书250排行榜信息爬取

1.什么是网络爬虫 Python爬虫是使用Python编程语言编写的程序&#xff0c;它能自动从互联网上抓取数据。这类程序一般利用网络请求来访问网站&#xff0c;解析网站的HTML或其他格式的内容&#xff0c;提取出有用的数据&#xff0c;有时还会进行后续的数据处理或存储。 Python…

人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)

开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型&#xff0c;是一种基于深度学习的自然语言处理模型&#xff0c;它能够学习到自然语言的语法和语义&#xff0c;从而可以生成人类可读的文本。 所谓"语言模型"&#xff0c;就是只用来处理语言文…

如何制定数据治理策略?做好这7点就够了

在当今的商业环境中&#xff0c;数据已成为企业最宝贵的资产之一。随着大数据、云计算、物联网&#xff08;IoT&#xff09;和人工智能&#xff08;AI&#xff09;等技术的不断进步&#xff0c;企业积累的数据量呈指数级增长&#xff0c;这为企业提供了前所未有的商业机会&…

大语言模型的微调方法_大语言模型六种微调方法

01 引言 自2018年BERT发布以来&#xff0c;“预训练微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练&#xff0c;本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力&#xff0c;即使提供了预训练的基座模型&…

正版 navicat 下载

1. 打开浏览器访问 navicat 官网 Navicat | 下载 Navicat Premium 14 天免费 Windows、macOS 和 Linux 的试用版 windows 用户选择这三项其中一个就可以 2. 下载 点击之后等个几秒钟就会开始下载了 3. 双击打开 下载好的 .exe 程序 进入安装程序 (不影响之前已经安装过的) 可…

数据结构试题 20-21

真需要就死记吧 二叉树遍历-先序(非递归)【图解代码】_哔哩哔哩_bilibili 解释一下步骤&#xff1a; 一个循环为&#xff1a; 1.取节点 2.放右子树 3.放左子树 每次循环&#xff0c;都要从栈里取出一个节点 先放右子树&#xff0c;再放左子树 那这道题就是&#xff0c;先放1&am…

山西青年杂志山西青年杂志社山西青年编辑部2024年第10期目录

本刊专稿 共融共创、校企共建BIM创新创业中心的探索与实践 黄强;马福贵;贾晓敏;苏艳贞;魏艳卿; 1-3 财务管理课程专创融合教学改革与实践 宋衍程; 4-7 数字化赋能国际贸易实务课程建设研究 吴珍彩; 8-11《山西青年》投稿&#xff1a;cn7kantougao163.com 青年教育研…

智慧学习实践系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;企业管理&#xff0c;任务管理&#xff0c;公告管理&#xff0c;菜单管理&#xff0c;用户管理&#xff0c;基础数据管理 企业账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;任务…

android 在线程中更新界面

在Android中&#xff0c;你不能直接从子线程中更新UI&#xff0c;因为这会导致应用崩溃。你需要使用Handler或runOnUiThread()来更新UI。 使用Handler 以下是如何使用Handler在子线程中更新UI的示例&#xff1a; 1. 创建Handler实例&#xff1a; import android.os.Bundle;…

从boost库到时间戳

一、以问题引入 授权证书一般有到期时间的说法&#xff0c;公司测试同事在测试更新后的证书时&#xff0c;将系统时间调到了2050年&#xff0c;重启服务后发现各个进程的cpu占用率特别高&#xff1b;结合日志分析&#xff0c;发现这些进程 都在不停的刷heartbeat()的日志&#…

常用的Java日志框架:Log4j、SLF4J和Logback

日志是软件开发中不可或缺的一部分&#xff0c;它有助于记录应用程序的运行状态、调试问题和监控系统。Java中有多个流行的日志框架&#xff0c;如Log4j、SLF4J和Logback。 一、Log4j 1.1 什么是Log4j&#xff1f; Log4j是Apache基金会开发的一个开源日志框架&#xff0c;它…

webpack处理样式资源04--webpack入门学习

处理样式资源 本章节学习使用 Webpack 如何处理 Css、Less、Sass、Scss、Styl 样式资源 介绍 Webpack 本身是不能识别样式资源的&#xff0c;所以我们需要借助 Loader 来帮助 Webpack 解析样式资源 我们找 Loader 都应该去官方文档中找到对应的 Loader&#xff0c;然后使用…