dataphin是什么及其简单使用示例

1.1dataphin是什么?

Dataphin是由阿里研发的智能大数据建设平台,提供一站式数据中台(大数据平台)建设服务。Dataphin通过沙箱(项目)实现业务及作业资源隔离,运行更快,且数据同步到Dataphin后,会统一将敏感数据脱敏后放入脱敏层,增强安全性并提高了效率。

Dataphin支持选择不同计算引擎进行数据处理,包括:MaxCompute、HadoopHive、AnalyticDB PostgreSQL、Flink,产品使用大致分成几个部分:数仓规划、数据研发、资产管理和资产服务。其服务模式包括:

1)公共云在线服务:Dataphin 支持按月订购的预付费模式,开通即可使用;

2)线下独立部署:提供一次购买软件并每年订购维保的买断式服务。

1.2页面展示

1.3核心模块

研发:报表开发及数据查询

资产:快速查询当前Dataphin有哪些数据资产

规划及管理中心:一般大数据运维及产品开发人员使用

2.dataphin使用示例

2.1准备数据源

2.1.1已有数据源

申请权限资产—>搜索相关表—>申请权限—>选择项目及对应字段

2.1.2创建MySQL数据源

通过创建MySQL数据源能够实现Dataphin读取MySQL的业务数据或向MySQL写入数据。本文为您介绍如何创建MySQL数据源。

背景信息

MySQL是一种关系型数据库。 常用于网站、应用程序和商业产品,是一种常见的主要关系数据存储系统。更多详情请参见MySQL官网。

使用限制

  • Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。

  • 仅支持创建5.1.43、5.6/5.7、8.0版本的MySQL数据源。

操作步骤
  1. 在Dataphin首页,单击顶部菜单栏 管理中心 。

  2. 按照下图指引,进入 新建数据源 对话框

  3. 在 新建数据源 对话框的 关系型数据库 区域,选择 MySQL 。

    如果您最近使用过MySQL,也可以在 最近使用 区域选择MySQL。同时,您也可以在搜索框中,输入MySQL的关键词,快速筛选。

  4. 在 新建MySQL数据源 对话框中,配置连接数据源参数。

    1. 配置数据源的基本信息。

      参数描述
      数据源名称命名规则如下: * 只能包含中文、字母、数字、下划线(_)或中划线(-)。 * 长度不能超过64字符。
      数据源编码配置数据源编码后,您可以在Flink_SQL任务中通过数据源编码.表名称数据源编码.schema.表名称的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table${数据源编码}.schema.table的变量格式访问。更多信息,请参见Dataphin数据源表开发方式。 重要 * 目前仅支持 MySQL 、 Hologres 、 MaxCompute 数据源。 * 数据源编码配置成功后不支持修改。
      版本支持选择5.1.43、5.6/5.7和8.0版本。
      数据源描述对MySQL数据源的简单描述。不得超过128个字符。
      数据源配置基于业务数据源是否区分生产数据源和开发数据源: * 如果业务数据源区分生产数据源和开发数据源,则选择 生产+开发数据源 。 * 如果业务数据源不区分生产数据源和开发数据源,则选择 生产数据源 。
      标签您可根据标签给数据源进行分类打标,如何创建标签,请参见数据源管理标签。
    2. 配置数据源与Dataphin的连接参数。

      若您的数据源配置选择 生产+开发数据源 ,则需配置 生产+开发数据源 的连接信息。如果您的数据源配置为 生产数据源 ,仅需配置 生产数据源 的连接信息。说明

      通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。

      参数描述
      JDBC URL链接地址的格式为jdbc:mysql://host:port/dbname。 说明 MySQL数据源的默认端口为3306。
      用户名 、 密码数据库的 用户名 和 密码 
      SSL加密开启后,需上传Truststore证书并填写Truststore证书密码。
    3. 配置数据源的高级设置。

      参数描述
      connectTimeout数据库的connectTimeout时长(单位ms),默认900000毫秒(15分钟)。 说明 * 若您在JDBC URL中带有connectTimeout配置,则connectTimeout为JDBC URL中配置的超时时间。 * Dataphin V3.11版本之前的创建数据源,connectTimeout默认为-1,表示无超时限制。
      socketTimeout数据库的socketTimeout时长(单位ms),默认1800000毫秒(30分钟)。 说明 * 若您在JDBC URL中带有socketTimeout配置,则socketTimeout为JDBC URL中配置的超时时间。 * Dataphin V3.11版本之前的创建数据源,socketTimeout默认为-1,表示无超时限制。
      连接重试次数数据库连接超时,将自动重试连接直到完成设定的重试次数。若达最大重试次数仍未连接成功,则连接失败。 说明 * 默认重试次数为 1次 ,支持配置 0~10 之间参数。 * 连接重试次数将默认应用于 离线集成任务 与 全域质量 (需开通资产质量功能模块),离线集成任务中支持单独配置任务级别的重试次数
  5. 单击 测试连接 ,测试数据源是否可以和Dataphin进行正常的连通。

  6. 测试成功后,单击 确定 ,完成MySQL数据源的创建。

2.2 数据查询

步骤:选择沙箱—>创建文件夹及页面—>写SQL脚本保存并执行

2.3创建离线管道(抽取数据)

(多数据源同步到一个或多个目标数据源)

步骤一:创建离线单条管道

  1. 进行数据集成页面。

  2. 在数据集成页面,按照下图操作指引,进入 创建管道开发脚本 对话框。

  3. 在 创建管道开发脚本 对话框中,配置管道相关参数。

    参数描述
    管道名称填写管道名称。 命名规则:支持最长64个字符,不支持以下特殊字符:`
    调度类型选择管道的调度类型。 调度类型 包括: * 周期性节点  指需定期执行的任务。 * 手动节点  指没有依赖关系,需手动触发的任务。
    描述填写对离线单条管道的简单描述。
    选择目录默认选择为离线管道。同时您也可以在离开管道页面创建目标文件夹后,选择该目标文件夹为离线管道任务的目录。 
  4. 单击 确定 

步骤二:开发离线管道脚本

离线单条管道采用可视化组件的开发方式,您可通过单击画布侧边栏 组件库 ,选择所需组件类型后拖拽组件到管道开发画布中,开发管道脚本。如下图所示:

  • 组件类型: 组件库分为5种组件类型,包括 输入 、 转换 、 流程 、 输出  自定义 。各组件类型使用场景各不相同,您可根据业务需求选择所需组件类型进行开发。

  • 组件: 开发管道脚本的功能模块,各组件对应不同的功能。

步骤三:管道调度配置

  1. 单击开发画布菜单栏按钮,进行调度配置。

  2. 在调度配置页面,配置集成管道的 基本信息 、 调度配置 、 调度依赖 、 调度参数、运行配置 。各配置说明如下:

    • 基本信息 :通过集成管道基本信息,您可配置集成管道任务开发负责人、运维负责人及描述。

    • 调度配置 :对于 周期性节点 ,调度配置用于定义集成管道任务在生产环境的调度方式。您可以通过调度属性,配置集成管道任务的调度类型、调度周期、调度逻辑与执行等。

    • 调度依赖 :对于 周期性节点, 调度依赖用于定义集成管道任务在调度任务中的依赖节点。Dataphin通过各个节点的调度依赖的配置结果,有序的运行业务流程中各个节点,保障业务数据有效、适时地产出。

    • 运行配置: 您可根据业务场景为该集成管道任务配置任务级的运行超时时间和任务运行失败时的重跑策略,杜绝因计算任务长时间资源占用造成资源浪费的同时提高计算任务运行的可靠性。

    • 资源配置 :您可为当前离线集成任务配置所属资源组,该离线集成任务将使用该资源组资源进行任务调度。

步骤四:保存并提交离线集成任务

  1. 单击画布上方的图标,保存管道任务。

  2. 单击画布上方的图标,在 提交备注 对话框,填写备注信息后,单击 确定并提交 。

    说明

    确认并提交离线集成任务后,系统将自动检查提交的离线集成任务,检查项包括配置检查、权限检查、 表重复性检查。

    • 配置检查: 包括管道检查和组件检查,检查配置项完整性。

    • 权限检查: 包括检查数据源、表、及字段的权限;密钥使用权限;质量规则发布权限。

    • 表重复性检查: 包括检查管道中的来源表是否在已提交或已发布的任务中已作为来源表,以及管道中的目标表是否在已提交或已发布的任务中已作为来目标表。

    若提交的集成任务中,存在以上检查项的告警或错误信息。建议您根据提示信息解决告警或错误后,在进行提交。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/688961.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十八 | ● 121. 买卖股票的最佳时机 ● 122.买卖股票的最佳时机II

121. 买卖股票的最佳时机 买卖股票的最佳时机 视频讲解:https://www.bilibili.com/video/BV1Xe4y1u77q https://programmercarl.com/0121.%E4%B9%B0%E5%8D%96%E8%82%A1%E7%A5%A8%E7%9A%84%E6%9C%80%E4%BD%B3%E6%97%B6%E6%9C%BA.html class Solution { public:int ma…

因你而变 共赴新程 | AidLux全新版本震撼发布!

历经400多个日夜,AidLux 2.0(基础版)终于要与大家见面了。 开发者们问过无数次,新版本何时发布,期待的功能何时上线……在此,让我先真诚地感谢大家长期以来的期待与关心! 一年多以来&#xff…

如何从官网下载 mysql 二进制安装包

一.下载二进行包 1. 官网网址: https://www.mysql.com/ 如图所示进入官网 2. 点击 DOWNLOADS ,进入如下图 在该页面找到 MySQL Community (GPL) Downloads 点进去 如上图页面,找到 MySQL Community Server 在点进去 下载 linux 通用版 点击最下面 Compressed …

服务监控-微服务小白入门(5)

背景 什么是服务监控 监视当前系统应用状态、内存、线程、堆栈、日志等等相关信息,主要目的在服务出现问题或者快要出现问题时能够准确快速地发现以减小影响范围。 为什么要使用服务监控 服务监控在微服务改造过程中的重要性不言而喻,没有强大的监控…

kafka-生产者拦截器(SpringBoot整合Kafka)

文章目录 1、生产者拦截器1.1、创建生产者拦截器1.2、KafkaTemplate配置生产者拦截器1.3、使用Java代码创建主题分区副本1.4、application.yml配置----v1版1.5、屏蔽 kafka debug 日志 logback.xml1.6、引入spring-kafka依赖1.7、控制台日志 1、生产者拦截器 1.1、创建生产者拦…

SkyWalking之P0核心业务场景输出调用链路应用

延伸扩展:XX核心业务场景 路由标签打标、传播、检索 链路标签染色与传播 SW: SkyWalking的简写 用户请求携带HTTP头信息X-sw8-correlation “X-sw8-correlation: key1value1,key2value2,key3value3” 网关侧读取解析HTTP头信息X-sw8-correlation,然后通…

Dokcer 基础使用 (4) 网络管理

文章目录 Docker 网络管理需求Docker 网络架构认识Docker 常见网络类型1. bridge 网络2. host 网络3. container 网络4. none 网络5. overlay 网络 Docker 网路基础指令Docker 网络管理实操 其他相关链接 Docker 基础使用(0)基础认识 Docker 基础使用(1)…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(十三)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 20 - 21节) P20《19.ArkUI-属性动画和显式动画》 本节先来学习属性动画和显式动画: 在代码中定义动画&am…

使用difflib实现文件差异比较用html显示

1.默认方式&#xff0c;其中加入文本过长&#xff0c;需要换行&#xff0c;因此做 contenthtml_output.replace(</style>,table.diff td {word-wrap: break-word;white-space: pre-wrap;max-width: 100%;}</style>)&#xff0c;添加换行操作 ps&#xff1a;当前te…

BGP汇总+认证

一、BGP 的宣告问题 1、在 BGP 协议中每台运行 BGP 的设备上&#xff0c;宣告本地直连路由 2、在 BGP 协议中运行 BGP 协议的设备来宣告.通过 IGP 学习到的&#xff0c;未运行 BGP 协议设备产2、生的路由&#xff1b; 在 BGP 协议中宣告本地路由表中路由条目时,将携带本地到达这…

PostgreSQL基础(九):PostgreSQL的事务介绍

文章目录 PostgreSQL的事务介绍 一、什么是ACID&#xff08;常识&#xff09; 二、事务的基本使用 三、保存点&#xff08;了解&#xff09; PostgreSQL的事务介绍 一、什么是ACID&#xff08;常识&#xff09; 在日常操作中&#xff0c;对于一组相关操作&#xff0c;通常…

视频大模型 Vidu 支持音视频合成;字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real-Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

鸿蒙全栈开发-浅谈鸿蒙~线程模型

前言 如果你现在正巧在找工作&#xff0c;或者琢磨着换个职业跑道&#xff0c;鸿蒙开发绝对值得你考虑一下。 为啥&#xff1f;理由很简单&#xff1a; 市场需求大&#xff1a;鸿蒙生态还在持续扩张&#xff0c;应用开发、系统优化、技术支持等岗位需求旺盛&#xff0c;找工作…

三分搜索峰值

问题 现在有一个数组&#xff0c;显示递增&#xff0c;后是递减&#xff0c;如何找到它的峰值&#xff1f; 思路 可以利用分治的思想&#xff0c;向二分查找一样&#xff0c;每次将要查询的区域分成若干个区域&#xff0c;根据区域的特殊点的值淘汰一些区域&#xff0c;缩小…

基于Python的Selenium详细教程

一、PyCharm安装配置Selenium 本文使用环境&#xff1a;windows11、Python 3.10.5、PyCharm 2022.1.3、Selenium 4.3.0 需要你懂的技术&#xff1a;Python、HTML、CSS、JavaScript 1.Seleium安装&#xff1a; 在PyCharm终端或window命令窗口输入以下命令 #查看已安装的Pytho…

硬件产品经理

边端协调管理平台 主页一&#xff1a;模型管理1.1 边侧模型管理 二&#xff1a;配置管理2.1 终端软件配置管理 三&#xff1a;设备管理3.1 区域位置管理3.2 工控机管理&#xff08;其实就是围绕授权&#xff09;3.3 生产设备管理3.4 设备运行管理 四&#xff1a;数据服务4.1 实…

ISP:企业数字化发展的关键推动力

在当今信息化时代&#xff0c;互联网已成为人们生活和工作中不可或缺的一部分。然而&#xff0c;对于很多人来说&#xff0c;ISP这一概念仍显得有些陌生。ISP&#xff0c;即互联网服务提供商&#xff08;Internet Service Provider&#xff09;&#xff0c;是为用户提供互联网接…

【课程总结】Day6(上):机器学习项目实战--外卖点评情感分析预测

机器学习项目实战&#xff1a;外卖点评情感分析预测 项目目的 基于中文外卖评论数据集&#xff0c;通过机器学习算法&#xff0c;对评论内容进行情感预测。 数据集 地址&#xff1a;http://idatascience.cn/dataset-detail?table_id429数据集字段 字段名称字段类型字段说…

package.json中resolutions的使用场景

文章目录 用途配置示例使用方法注意事项和peerDependencies有什么不同peerDependenciesresolutions 总结 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人社区&#xff0c;欢迎你的加入&#xff1a;全栈弄潮儿的…

谈AI 时代网站的未来趋势

以大语言模型为代表的AI 技术迅速发展&#xff0c;将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。 互联网时代&#xff0c;主要是通过网站&#xff08;website&#xff09;提供信息。网站主要为人类阅读的方式构建的。主要…