4万字企业数字化转型大数据湖项目建设和运营综合解决方案WORD

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。
部分资料内容:

3.1.4沙盒管理

利用Docker, 基于kubernetes主打的容器技术与微服务应用基础平台,HDFS和YARN均可依此建模,为上层应用提供微服务引擎架构支持。

c4b78efed5fdeef2d72ffe888ed68507.jpeg

使用资源隔离,基于linux提供的LXC技术,EDH提供静态的资源隔离,并使用CGroups对隔离后的资源进行管理。部署服务弹性伸缩和自修复触发器,充分利用计算资源。创建分析引擎及计算引擎镜像,部署到docker中。

基于devicemapper动态扩容、缩容,将中心湖的数据进行分片,然后同步导入到沙盒中的HDFS或KUDU中。

3.1.5多租户管理

40ecd41acf6edff0bbfe2306c9c8ae2c.jpeg

数据湖环境下的多租户CDH平台需要具备多租户资源管理能力,支持PB级的数据处理和应用分析、秒级的实时处理和场景营销、高并发的数据查询、对外的服务支持等。多租户Hadoop平台框架如左图所示,可以满足统一数据存放,提高数据湖数据共享率,优化资源调度策略,提升数据湖资源利用率,支撑PB级大数据处理,建立数据湖评测标准等效果。

目前版本的多租户CDH平台已满足大部分功能需求,包括满足统一数据存放、优化资源调度策略,提升数据湖资源利用率,主要包含以下几个模块: 多租户管理、资源管理、机构管理、权限管理,应用及数据的统一监控、安全管理。

分为以下几个模块: 我的工作台包含用户(租户)自身的资源查看和申请、提交的任务运行情况(历史任务/正在运行的任务)、所拥有的数据列表、密钥申请及查看;机构管理包含用户层级管理(主要针对多部门多用户的分级管理);用户管理包含用户的个人管理、用户所关联的平台角色管理、用户申请的密钥审批管理、用户/租户针对CDH平台组件的权限管理(YARN/Impala/Hive/HDFS/HBase等)

3.2报表平台整体方案

3.2.1系统设计原则

系统设计方案总体遵循技术规格书的总体目标和指导思想,以优化整合基础数据为前提,以构建贯通主体业务为目标建立基于信息共享数据湖的BI应用系统架构;应用系统架构的规划要将先进性和实用性有机结合,结合的关键点在于从的实际需求出发,在明确的有限目标前提下,以实用性为优先。系统设计体现统一性、先进性、实用性、可靠性、安全性、可扩展性。

l 统一性

信息资源统一规划、统一管理,包含是统一的建设标准。包括统一的数据标准、统一的规划标准、统一的接口标准、统一的管理标准。

l 先进性

技术设计及业务应用方面体现行业应用的领先性和前瞻性。

l 实用性

管理模式和系统功能要针对的实际情况设定,体现基础扎实、效率优先、平稳过渡、降低风险、投资见效快的要求,并结合使用人员特点、业务实际操作特点和管理基础使系统易学易用、方便推广。

l 可靠性

系统采用大型关系型数据库,有严格的安全控制和数据备份机制,确保数据安全可靠。

l 安全性

在网络配置上,外部只可访问经过许可的Web服务器,保证内部业务分析应用模型的数据不被非法用户所获取。在应用软件的设计上,强化权限管理功能,具有多级安全机制。通过对各级工作人员的权限设置,做到所有人员只能查看与其权限相应的数据,并建立完善的日志管理,做到所有操作都有据可查。

l 可扩展性

可扩展性从以下两个方面提出要求:一是业务应用功能的可扩展性,通过建立集中与分层管理的统一模式,使同类业务能在和二级部门层面推广使用,并以精细化数据管理为基础,为未来系统功能向更高层次的提升奠定应用基础框架;二是系统环境的可扩展性,网络和系统数据湖可根据统一规划的要求,在保证体系完整的前提下,通过逐步扩充来满足应用需求并实现合理投资。

l 易用性

提供了完整的交互性的UI操作界面和管理控制数据湖。其中BI更有别于其他传统BI产品,在分析图表创建、调整等方面更为简便、易用,以一个产品组件即实现了数据结构、数据图表、OLAP、Dashboard等以往需要多个产品实现的开发和应用发布功能,极大地减轻了对系统维护团队的工作压力。

数据存储开发方案

Kafka的Topic中的数据通过定制开发的SparkStreaming程序进行清洗、去重等操作并存入数据湖。数据采用Kudu+HBase的方式存储,HBase存全量数据,Kudu存计算点数据、测点数据。数据仓库的存储,根据业务需求,采用hive+kudu的方式进行开发。报表的数据存储,根据实时性和变化量,采用hive+mysql的方式进行存储,开发相应的关系映射和连接组件。

3.1.3.3 Hbase+ES近实时(NRT)查询开发方案

Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页、查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Secondary Indexing),供复杂查询使用。而ES作为一个高性能,采用Java5开发,基于Lucene(同时对其进行了扩展)的全文搜索服务器,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

Key-Value Store Indexer是Hbase到ES生成索引的中间工具。在CDH5中的Key-Value Store Indexer使用的是Lily HBase NRT Indexer服务。

Lily HBase Indexer是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理HBase列索引数据的分布式服务软件。Lily HBase Indexer使用ESCloud来存储HBase的索引数据,当HBase执行写入、更新或删除操作时,Indexer通过HBase的replication功能来把这些操作抽象成一系列的Event事件,并用来保证写入ES中的HBase索引数据的一致性。并且Indexer支持用户自定义的抽取,转换规则来索引HBase列数据。ES搜索结果会包含用户自定义的columnfamily:qualifier字段结果,这样应用程序就可以直接访问HBase的列数据。而且Indexer索引和搜索不会影响HBase运行的稳定性和HBase数据写入的吞吐量,因为索引和搜索过程是完全分开并且异步的。

hbase负责海量数据存储;ES负责构建索引和提供对外查询;Indexer负责提供hbase到ES的索引构建。

bac2afde85a211faefba1acc73bf5f97.jpeg

数据使用流程图

3.1.3.4  数据接口的开发

数据湖通过标准接口的方式为外部系统提供数据服务,根据不同业务系统的需要进行定制化的接口开发。根据业务的不同数据封装分成两种方式,一种是对批量的数据进行封装,将封装后的数据发布到共享区上,供数据应用和外围系统获取,这种方式主要针对访问方需要海量数据的情况;另一种方式是将数据封装成Web Service或者其他专用Socket协议的格式供访问方获取单条数据,这种方式主要针对对客户视图等的访问情况。

1) API

应保持与开源Hadoop及相当架构系统各服务组件的API不变,具体包括并不限于接口功能、接口类型(Java、Python、Rest等)、接口名称、输入参数、返回结构。所支持的接口包括并不限于:

a. 支持访问分布式文件系统的文件操作接口;

b. 支持与外部数据源关系数据库的交互;

c. 通过提交MR任务分析和查询数据;

d. 支持Thrift、Rest接口;

e. 以直接提交查询语句方式访问数据;

f. 提供用户访问Hive的方法,支持用户使用Java和Thrift方式访问Hive。

f359c1001657be69f2eb2d0a109c802b.jpeg

20f5cd9813fecc288fc1a9e90b8c89c7.jpeg

102c659028e69477ee6ccb1f4b5406e1.jpeg

篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/2906.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

不愧是2023年就业最难的一年,还好有车企顶着~

就业龙卷风已经来临,以前都说找不到好的工作就去送外卖,但如今外卖骑手行业都已经接近饱和状态了,而且骑手们的学历也不低,本科学历都快达到了30%了,今年可以说是最难找到工作的一年。 像Android 开发行业原本就属于在…

学习 Python 之 Pygame 开发魂斗罗(十)

学习 Python 之 Pygame 开发魂斗罗(十)继续编写魂斗罗1. 解决敌人不开火的问题2. 创建爆炸效果类3. 为敌人跳入河中增加爆炸效果4. 玩家击中敌人继续编写魂斗罗 在上次的博客学习 Python 之 Pygame 开发魂斗罗(九)中,…

深度长文 | 数据安全共享技术发展综述及在能源电力领域应用研究

开放隐私计算 编者按数据要素的流通共享与协同应用是数字时代中数据要素市场培育的核心内容,数据安全共享技术能够有效实现数据的安全共享,避免“数据孤岛”现象、隐私泄露事件等.本文对国内外数据安全共享技术研究成果及进展进行了全面综述.首先&#x…

[前端笔记037]vue2之vuex

前言 本笔记参考视频,尚硅谷:BV1Zy4y1K7SH p105 - p116 vuex简介和基本使用 概念:专门在 Vue 中实现集中式状态(数据)管理的一个 Vue 插件,对 vue 应用中多个组件的共享状态进行集中式的管理(读/写&…

CVPR 2023 | 旷视研究院入选论文亮点解读

近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次&…

烤鱼界头牌半天妖发文致歉,背后暴露了哪些问题?

3月24日,半天妖烤鱼官方针对“两家门店食品安全问题”,发表致歉声明,并宣布将两家涉事门店永久关停。半天妖烤鱼爆出的食品安全问题再次提醒我们,加强门店监管和管理工作,保障消费者的健康和安全,成为了行业…

7.避免不必要的渲染

目录 1 组件更新机制 2 虚拟DOM配合Diff算法 3 减轻state 4 shouldComponentUpdate() 4.1 基本使用 4.2 使用参数 5 纯组件 5.1 基本使用 5.2 纯组件的比较方法 shallow compere 1 组件更新机制 当父组件重新渲染时,父组件的所有子组件也会重新…

如何理解AQS

AQS核心数据结构 AQS内部主要维护了一个FIFO(先进先出)的双向链表。 AQS数据结构原理 AQS内部维护的双向链表中的各个节点分别指向直接的前驱节点和直接的后续节点。所以,在AQS内部维护的双向链表可以从其中的任意一个节点遍历前驱结点和后…

【尝鲜版】ChatGPT插件开发指南

3月23日,OpenAI官方发布了一则公告,宣告ChatGPT已经支持了插件功能,现在处于内测阶段。插件的意义不仅仅在于功能的扩展,它直接让ChatGTP拥有了联网的能力!简直是猛兽出笼、蛟龙出海,要让ChatGPT大杀特杀啊…

phpstorm断点调试

环境:win10phpstorm2022phpstudy8lnmp 1、phpinfo(); 查看是否安装xdebug,没有走以下流程 2、phpstudy中切换不同版本php版本,有些版本不支持xdebug(如php8.0.2),有些已经自带了(如php7.3.9&a…

Java奠基】Java经典案例讲解

目录 卖飞机票 找质数 开发验证码 数组元素的复制 评委打分 数字加密 数字解密 抢红包 模拟双色球 二维数组 卖飞机票 需求:机票价格按照淡季旺季、头等舱和经济舱收费、输入机票原价、月份和头等舱或经济舱。按照如下规则计算机票价格: 旺季&…

技术分享——Java8新特性

技术分享——Java8新特性1.背景2. 新特性主要内容3. Lambda表达式4. 四大内置核心函数式接口4.1 Consumer<T>消费型接口4.2 Supplier<T>供给型接口4.3 Function<T,R>函数型接口4.4 Predicate<T> 断定型接口5. Stream流操作5.1 什么是流以及流的类型5.2…

[攻城狮计划]如何优雅的在RA2E1上运行RT_Thread

文章目录[攻城狮计划]|如何优雅的在RA2E1上运行RT_Thread准备阶段&#x1f697;开发板&#x1f697;开发环境&#x1f697;下载BSP&#x1f697;编译烧录连接串口总结[攻城狮计划]|如何优雅的在RA2E1上运行RT_Thread &#x1f680;&#x1f680;开启攻城狮的成长之旅&#xff0…

【ChatGPT】教你搭建多任务模型

ChatGPT教你搭建多任务模型 You: tell me what’s your version of gpt ? ChatGPT: As an AI language model developed by OpenAI, I am based on the GPT (Generative Pretrained Transformer) architecture. However, my version is known as GPT-3.5, which is an updat…

数据泄漏防护 (DLP) 工具保护敏感数据

通过实时安全监控&#xff0c;通过端点&#xff08;即 USB、电子邮件、打印等&#xff09;检测、中断和防止敏感数据泄露。使用 DataSecurity Plus 的数据泄漏防护 &#xff08;DLP&#xff09; 工具保护敏感数据不被泄露或被盗。DataSecurity Plus 主要功能包括&#xff1a; …

Android APP检查设备是否为平板

正文 Android APP判断设备是否为平板的三种方法&#xff1a; 通过屏幕尺寸判断。一般来说&#xff0c;平板电脑的屏幕尺寸比手机大很多&#xff0c;可以根据屏幕的长宽比和尺寸等信息来区分设备类型。通过屏幕像素密度判断。一般来说&#xff0c;平板电脑的屏幕像素密度比手机…

Java开发一年不到,来面试居然敢开口要20K,面完连8K都不想给~

前言 我的好朋友兼大学同学老伍家庭经济情况不错&#xff0c;毕业之后没两年自己存了点钱加上家里的支持&#xff0c;自己在杭州开了一家网络公司。由于公司不是很大所以公司大部分的开发人员都是自己面试的&#xff0c;近期公司发展的不错&#xff0c;打算扩招也面试了不少人…

四级数据库工程师 刷真题错题整理(三)数据库原理

1.数据模型是对现实世界进行抽象的工具&#xff0c;它按算机系统的观点模于提数据库系统中信息表示和操作手段的形式框架&#xff0c;主要用于 DBMS 的实现&#xff0c;是数据库系统的核心和基础。其中&#xff0c;数据操作是对数据间的动态行为。 2.数据库的型是稳定的&#…

day38_JDBC

今日内容 上课同步视频:CuteN饕餮的个人空间_哔哩哔哩_bilibili 同步笔记沐沐霸的博客_CSDN博客-Java2301 零、 复习昨日 一、数据库连接池 二、反射 三、封装DBUtil 零、 复习昨日 SQL注入 预处理语句 String sql "select * from user where id ?"; PreparedStat…

企业微信中如何拉黑?拉黑个人和群成员有什么区别?

企业微信既可以拉黑个人好友&#xff0c;又可以拉黑群好友。 1. 拉黑个人好友 拉黑好友通俗来说就是不想再接收到对方的信息&#xff0c;企业微信可以通过设置消息免打扰的方式来屏蔽对方的消息。 【客户聊天界面】-【右上角的小人标志】-【第一栏名称进入】-【右上角三点】…