大数据开发治理平台~DataWorks(核心功能汇总)

目录

数据集成

功能概述

使用限制

功能相关补充说明

数据开发

功能概述

数据建模

功能概述

核心技术与架构

数据分析

功能概述

数据治理

 数据地图

功能概述

数据质量

功能概述

数据治理资产

功能概述

使用限制

数据服务

功能概述


数据集成

        DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

功能概述

DataWorks的数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。其中:

  • 离线同步场景下,支持设置离线同步任务的调度周期。

  • 支持关系型数据库、数仓、非关系型数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步。

  • 支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通。

  • 支持安全控制与运维监控,保障数据同步的安全、可控。

使用限制

  • 数据同步

    支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute

  • 网络连通

    支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。

  • 数据传输

    数据集成仅完成数据同步(传输),本身不提供数据流的消费方式

  • 数据一致性

    数据集成同步仅支持at least once,不支持exact once,即不能保证数据不重复只能依赖主键+目的端能力来保证。

  • 数据集成作业创建

    不支持批量创建数据集成作业。

注意

        同步任务源端和目标端字段类型需要注意精度,如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险。(不区分源端和目标端类型,也不区分离线还是实时同步)。

功能相关补充说明

网络连通方案

支持的数据源及同步方案

数据开发

        DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。

功能概述

DataWorks的数据开发的亮点功能如下。

  • DataStudio支持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多种计算引擎,支持在统一的平台上进行各类引擎任务的开发、测试、发布和运维等操作。

  • DataStudio支持智能编辑器、可视化依赖编排,调度能力经过阿里集团内调度任务、复杂业务依赖的反复验证。

  • DataStudio提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发。

  • 运维中心支持数据时效性保障、任务诊断、影响分析、自动运维、移动运维等功能。

数据建模

        智能数据建模是阿里云DataWorks自主研发的智能数据建模产品,沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践,包含数仓规划、数据标准、维度建模数据指标四大模块,帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的能力,并通过数据建模快速构建企业数据资产。

功能概述

智能数据建模产品包含数仓规划数据标准维度建模数据指标四大产品模块。

  • 数仓规划:数仓规划支持数仓分层、数据域、数据集市等的规划,支持设置模型设计空间,不同部门可共享一套数据标准和数据模型。

  • 数据标准:数据标准字段标准、标准代码、度量单位、命名词典的定义,支持标准代码自动生成质量规则,落标检查不再难。

  • 维度建模:维度建模支持逆向建模,解决现有数仓的建模冷启动难题,支持可视化数仓维度建模,支持通过Excel文件导入模型和通过FML(一种类SQL的DSL)快速构建模型,支持与数据开发DataStudio无缝打通,自动生成ETL代码。

  • 数据指标:数据指标支持原子指标、派生指标的定义与构建,与维度建模无缝打通,可根据原子指标和不同维度批量创建派生指标。

核心技术与架构

数据分析

        DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。

功能概述

数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。

数据治理

 数据地图

 DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。

数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

功能概述

        数据地图是在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。

数据质量

        DataWorks的全流程数据质量监控功能为您提供35种预设表级别、字段级别和自定义的监控模板。

        数据质量帮助您第一时间感知到源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。

功能概述

        数据质量以数据集(DataSet)为监控对象,支持监控MaxCompute数据表和DataHub实时数据流。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量进行分析和定级。

        数据质量可以解决如下问题:

  • 数据库频繁变更问题
  • 业务频繁变化问题
  • 数据定义问题
  • 业务系统的脏数据问题
  • 系统交互导致质量问题
  • 数据订正引发的问题
  • 数据仓库自身导致的质量问题

数据治理资产

        数据资产治理是统一资产治理系统,针对多个治理领域,通过数据领域规则沉淀自动识别资产待优化问题项覆盖事后及事前的治理优化策略等方式,帮助用户主动式、体系化完成数据治理工作。

功能概述

        数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,还提供业务资产管理、资产分析、任务资源消耗明细、费用预估等功能,帮助您有效掌握各类资源的使用详情。

使用限制

  • 版本限制

    目前仅支持DataWorks企业版及以上版本使用数据资产治理。DataWorks各版本介绍,详情请参见DataWorks各版本详解;购买DataWorks,详情请参见购买指引。

  • 地域限制

    目前仅支持华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、西南1(成都)、中国香港、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)地域使用数据资产治理。

  • 权限限制

        使用数据资产治理的用户角色主要如下,其权限限制如下。

角色

权限说明

相关参考

租户级数据治理管理员

租户级数据治理管理员可使用全局视角查看治理评估报告、治理项问题、检查项事件等,执行相应的整改操作。

  • 授权操作,详情请参见管理租户成员角色权限。

  • 数据治理管理员的详细权限,请参见数据治理。

空间管理员

可使用工作空间视角查看治理评估报告。如您需使用该视角查看某工作空间的治理评估报告,需被授权为该空间的空间管理员。

  • 授权操作,详情请参见添加空间成员并管理成员角色权限。

  • 查看治理评估报告,详情请参见查看治理评估报告。

空间级数据治理管理员

该角色可以查看并管理该角色所属空间的数据治理相关内容。

说明

该角色不能通过全局视角查看当前地域所有空间下的治理情况,且无法针对全局的治理操作(例如全局允许启用检查项)进行管控。若要允许RAM用户通过全局视角执行上述操作,请授予其租户级数据治理管理员角色。

  • 授权操作,详情请参见添加空间成员并管理成员角色权限。

  • 空间级数据治理管理员角色具体支持的功能详情,请参见数据治理。

普通用户

数据治理工作中实际处理待治理问题的整改人员,可使用个人视角查看检查项事件及治理项问题,并执行整改操作。如您需整改租户下存在的问题,则需被授权为该空间的成员。

说明

通常,除阿里云主账号和具有AliyunDataWorksFullAccess权限的RAM用户外,其他租户内成员默认均为普通用户。

授权操作,详情请参见添加空间成员并管理成员角色权限。

        目前仅支持阿里云主账号或具有AliyunDataWorksFullAccess权限的RAM用户(即子账号)使用数据资产治理的全部功能。如您需使用数据资产治理的全部功能,则可授予RAM用户该权限,授权详情,请参见为RAM用户授权DataWorks相关管理权限。

  • 计算资源限制

        目前仅支持MaxCompute、E-MapReduce和Hologres计算资源。

数据服务

        DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。

功能概述

        作为数据仓库与上层应用系统间的“桥梁”,DataWorks数据服务为企业搭建统一的服务总线,帮助企业统一创建及管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”,加速数据的流动和共享。

  • 数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据表生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。

  • 数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。


        这篇博客到这里就接近尾声了,希望我的分享能给您带来一些启发和帮助,别忘了点赞、收藏。您的每一次互动、鼓励是我持续创作的动力!期待与您再次相遇,共同探索更广阔的世界!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/972644.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mongodb数据管理

Mongodb数据管理 1.登录数据库,查看默认的库 [rootdb51~]# mongo> show databases; admin 0.000GB config 0.000GB local 0.000GB> use admin switched to db admin > show tables system.version > admin库:admin 是 MongoDB 的管理…

洛谷P8707 [蓝桥杯 2020 省 AB1] 走方格

#include <iostream> using namespace std; int f[31][31]; int main(){int n,m;scanf("%d%d",&n,&m);f[1][1]1;//边界&#xff1a;f(1,1)1for(int i1;i<n;i)for(int j1;j<m;j)if((i&1||j&1)&&(i!1||j!1))//i,j不均为偶数&#…

腿足机器人之七- 逆运动学

腿足机器人之七- 逆运动学 基本概念腿部运动的数学表示坐标系定义以及自由度说明正运动学模型 逆运动学求解几何解法数值迭代法雅可比矩阵法基础双足机器人步态规划中的雅可比法应用 工程挑战与解决方案实际应用中的工具和算法多解问题高自由度机器人&#xff08;如Atlas的28自…

【强化学习的数学原理】第10课-Actor-Critic方法-笔记

学习资料&#xff1a;bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接&#xff1a;强化学习的数学原理 西湖大学 赵世钰 文章目录 一、最简单的Actor-Critic&#xff08;QAC&#xff09;二、Advantage Actor-Critic&#xff08;A2C&#xff09;三、重要性采样和…

vtkCamera类的Dolly函数作用及相机拉近拉远

录 1. 预备知识 1.1.相机焦点 2. vtkCamera类的Dolly函数作用 3. 附加说明 1. 预备知识 要理解vtkCamera类的Dolly函数作用,就必须先了解vtkCamera类表示的相机的各种属性。  VTK是用vtkCamera类来表示三维渲染场景中的相机。vtkCamera负责把三维场景投影到二维平面,如…

JavaScript中的函数基础知识

JavaScript中的函数基础知识 1.函数声明的三种方式1.1 函数声明语句1.2 函数表达式1.3 new Function 2.函数的返回值3.函数调用的几种方法4.函数参数4.1 函数内部的arguments对象&#xff08;是个伪数组&#xff09;4.2 获取形参的个数4.3 函数不存在重载4.4 参数传递(1) 基本数…

fpga助教面试题

第一题 module sfp_pwm( input wire clk, //clk is 200M input wire rst_n, input wire clk_10M_i, input wire PPS_i, output reg pwm ) reg [6:0] cunt ;always (posedge clk ) beginif(!rst_n)cunt<0;else if(cunt19) //200M是10M的20倍cunt<0;elsecunt<cunt1;…

调用openssl实现加解密算法

由于工作中涉及到加解密&#xff0c;包括Hash&#xff08;SHA256&#xff09;算法、HMAC_SHA256 算法、ECDH算法、ECC签名算法、AES/CBC 128算法一共涉及5类算法&#xff0c;笔者通过查询发现openssl库以上算法都支持&#xff0c;索性借助openssl库实现上述5类算法。笔者用的op…

RTSP协议讲解及漏洞挖掘

文章目录 前言一、RTSP协议简介二、RTSP协议常见应用场景包括三、攻击RTSP协议的好处四、RTSP多种认证模式五、工具使用下载地址六、RTSP协议漏洞挖掘手法 前言 实时流传输协议&#xff08;Real Time Streaming Protocol&#xff0c;RTSP&#xff09;&#xff0c;RFC2326&…

Mysql各操作系统安装全详情

" 至高无上的命运啊~ " MySQL是一个关系型数据库管理系统&#xff0c;由瑞典 MySQL AB 公司开发&#xff0c;属于 Oracle 旗下产品。MySQL是最流行的关系型数据库管理系统之一&#xff0c;在 WEB 应用方面&#xff0c;MySQL是最好的RDBMS (Relational Database Mana…

Elasticsearch7.1.1 配置密码和SSL证书

生成SSL证书 ./elasticsearch-certutil ca -out config/certs/elastic-certificates.p12 -pass 我这里没有设置ssl证书密码&#xff0c;如果需要设置密码&#xff0c;需要再配置给elasticsearch 在之前的步骤中&#xff0c;如果我们对elastic-certificates.p12 文件配置了密码…

EasyExcel 自定义头信息导出

需求&#xff1a;需要在导出 excel时&#xff0c;合并单元格自定义头信息(动态生成)&#xff0c;然后才是字段列表头即导出数据。 EasyExcel - 使用table去写入&#xff1a;https://easyexcel.opensource.alibaba.com/docs/current/quickstart/write#%E4%BD%BF%E7%94%A8table%E…

C++基础知识学习记录—模版和泛型编程

1、模板 概念&#xff1a; 模板可以让类或者函数支持一种通用类型&#xff0c;在编写时不指定固定的类型&#xff0c;在运行时才决定是什么类型&#xff0c;理论上讲可以支持任何类型&#xff0c;提高了代码的重用性。 模板可以让程序员专注于内部算法而忽略具体类型&#x…

Django 连接(sqlserver)数据库方法

文章目录 django 的SQL server适配器&#xff0c;例如django-pyodbc-azure 或 mssql-django1、django-pyodbc-azure2、mssql-django3、注意 Django只内置了几个 Database Backend&#xff08;mysql、oracle、sqllite3&#xff08;默认&#xff09;、postgresql_psycopg2&#x…

华为 eNSP:MSTP

一、MSTP是什么 MSTP是多业务传送平台&#xff08;Multi-Service Transport Platform&#xff09;的缩写&#xff0c;它是一种基于SDH&#xff08;同步数字体系&#xff09;技术的传输网络技术&#xff0c;用于同时实现TDM、ATM、以太网等多种业务的接入、处理和传送。 MSTP技…

Mac端homebrew安装配置

拷打了一下午o3-mini-high&#xff0c;不如这位博主的超强帖子&#xff0c;10分钟结束战斗 跟随该文章即可&#xff0c;2025/2/19亲测可行 mac 安装HomeBrew(100%成功)_mac安装homebrew-CSDN博客文章浏览阅读10w次&#xff0c;点赞258次&#xff0c;收藏837次。一直觉得自己写…

一台服务器将docker image打包去另一天服务器安装这个镜像

一台服务器将docker image打到去另一天服务器安装这个镜像 1. 打包2.另一台服务器执行 1. 打包 docker save -o nebula-graph-studio.tar harbor1.vm.example.lan/dockerio/vesoft/nebula-graph-studioxxx.tar 是打包好的文件 后面的是 docker image 2.另一台服务器执行 docke…

Web开发技术概述

Web开发技术涵盖了前端和后端开发&#xff0c;以及数据库技术。前端开发包括使用HTML、CSS、JavaScript等原生技术&#xff0c;以及jQuery、Bootstrap、AngularJS、React、Vue等框架。后端开发则涉及ASP.NET、PHP、Python Web&#xff08;Flask、Django&#xff09;、Java Web&…

【项目日记】仿RabbitMQ实现消息队列 --- 模块设计

你要的答案不在书本里&#xff0c; 也不能靠别人来解决&#xff0c; 除非你想一辈子当小孩。 你必须在自我内部找到答案&#xff0c; 感受到该做的正确事情。 --- 《献给阿尔吉侬的花束》--- 仿RabbitMQ实现消息队列 1 数据管理模块1.1 交换机数据管理模块1.2 队列数据管…

C++ Primer 构造函数再探

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…