数据平台浅理解

  1. 定义

    • 数据平台架构是指用于收集、存储、处理和分析数据的一系列组件、技术和流程的整体架构设计。它就像是一个复杂的数据生态系统的蓝图,旨在高效地管理数据从产生源头到产生价值的整个生命周期。
  2. 主要层次

    • 数据源层
      • 这是数据的起点,包含各种类型的数据产生源。例如,企业内部的业务系统(如 ERP 系统产生的订单数据、库存数据,CRM 系统产生的客户关系数据)、外部数据(如市场调研报告、社交媒体数据)、传感器(物联网设备产生的环境数据、设备运行数据)等。这些数据源的数据格式多样,可能是结构化的数据库记录(如关系型数据库中的表格数据),也可能是半结构化的(如 XML、JSON 格式的数据)或者非结构化的数据(如文本文件、图像、音频等)。
    • 数据采集层
      • 负责从数据源获取数据并传输到数据存储层。这一层通常会使用数据采集工具,如 ETL(Extract,Transform,Load)工具。ETL 工具可以从不同的数据源提取数据,例如从关系型数据库中通过 SQL 查询提取指定的数据表,对数据进行清洗和转换(如统一数据格式、处理缺失值、转换数据类型等),然后加载到数据存储系统中。另外,对于实时性要求较高的数据,可能会采用数据抽取工具(如 Kafka 等消息队列系统)来实现近实时的数据采集,确保数据能够及时地被后续处理。
    • 数据存储层
      • 用于存储采集到的数据,根据数据的特点和用途可以分为多种存储方式。
      • 关系型数据库:如 MySQL、Oracle 等,适用于存储结构化数据,以表格形式组织数据,通过 SQL 语言进行数据的操作。它们提供了强大的事务处理能力,适合处理企业核心业务数据,如财务数据、订单交易数据等。
      • 非关系型数据库
        • 键值存储数据库(如 Redis):以键 - 值对的形式存储数据,数据读写速度快,常用于缓存数据或者存储简单的配置信息。例如,在一个电商网站中,Redis 可以存储热门商品的信息,加快用户访问这些商品详情页的速度。
        • 文档数据库(如 MongoDB):适合存储半结构化数据,以文档(如 JSON 格式)为单位存储数据。它在处理具有复杂结构的应用数据(如内容管理系统中的文章数据,包含标题、作者、内容、标签等多种字段)方面具有优势。
        • 列存储数据库(如 HBase):主要用于存储海量数据,按列存储数据,适合数据分析场景,特别是在处理大数据量的查询和统计分析时,能够快速地检索列相关的数据。
      • 数据湖:是一个集中存储大量原始数据(包括结构化、半结构化和非结构化数据)的存储库。例如,一个大型互联网公司的数据湖可能存储了网站日志数据、用户上传的各种文件、从不同业务系统抽取的备份数据等。数据湖通常使用分布式文件系统(如 Hadoop 的 HDFS)构建,支持在数据上进行灵活的分析和处理。
    • 数据处理层
      • 对存储的数据进行加工处理,以满足数据分析和应用的需求。
      • 批处理:例如使用 Hadoop MapReduce 或 Spark 等大数据处理框架,对大规模的数据进行批量处理。以电商公司的销售数据分析为例,通过批处理可以每天或者每周对大量的订单数据进行汇总、统计,计算出销售额、销售量等指标,为企业决策提供数据支持。
      • 流处理:针对实时性要求高的数据,如金融交易数据、物联网设备的实时监测数据等,采用流处理技术(如 Apache Flink、Apache Storm)。这些技术可以在数据产生的瞬间进行处理,及时发现异常情况或者提取有价值的信息。例如,在金融风控领域,通过对流式的交易数据进行实时分析,能够快速识别出可疑的交易行为并及时预警。
    • 数据分析层
      • 提供数据分析和挖掘的功能,帮助用户从数据中获取有价值的信息。
      • 数据挖掘工具:可以发现数据中的潜在模式和关系。例如,在零售行业,通过关联规则挖掘算法可以发现顾客购买商品之间的关联,如购买尿布的顾客很可能同时购买啤酒,从而为商品陈列和促销策略提供依据。
      • 数据可视化工具:如 Tableau、PowerBI 等,将分析的数据以直观的图表(柱状图、折线图、饼图等)、地图或者仪表盘的形式展示出来。这使得数据更容易被理解,方便企业管理者、分析师等人员快速把握数据的关键信息,做出决策。
    • 数据应用层
      • 将数据分析的结果应用于实际业务场景,实现数据的价值转化。例如,在精准营销场景中,根据用户的行为数据和画像数据,向用户推送个性化的产品推荐和营销活动;在智能交通领域,通过分析交通流量数据,优化交通信号灯的控制策略,缓解交通拥堵。
  3. 架构模式

    • 集中式架构
      • 数据集中存储在一个或几个中心服务器或数据中心中。优点是便于管理和维护,数据一致性容易保证。例如,一些小型企业的内部数据平台,所有的数据都存储在企业内部的数据中心,通过统一的数据库管理系统进行管理。但这种架构可能存在单点故障风险,并且在处理海量数据和高并发场景时可能会面临性能瓶颈。
    • 分布式架构
      • 数据和处理任务分布在多个节点上,通过网络进行通信和协调。这种架构能够处理大规模的数据和高并发的请求。例如,大型互联网公司的数据平台采用分布式架构,如使用 Hadoop 集群、分布式数据库等,将数据存储和处理任务分散到多个服务器甚至多个数据中心,提高了系统的扩展性和容错性。
    • 混合架构
      • 结合了集中式和分布式架构的特点。例如,对于企业的核心敏感数据采用集中式存储和管理,以确保数据的安全性和一致性;而对于海量的日志数据、用户行为数据等采用分布式架构进行存储和处理,以满足数据量和性能的要求。

数据基础平台主要组件包括:HDFS 分布式存储集群,YARN 计算集群,Spark、Hive 计算引擎。

yarn小调度,flink=》+ Kyuubi

升级 Spark3 的时候,废弃原有的 Spark2 的 Thrift Server 的改造实现,引入 Apache Kyuubi 项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/954158.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CSS3的aria-hidden学习

前言 aria-hidden 属性可用于隐藏非交互内容,使其在无障碍 API 中不可见。即当aria-hidden"true" 添加到一个元素会将该元素及其所有子元素从无障碍树中移除,这可以通过隐藏来改善辅助技术用户的体验: 纯装饰性内容,如…

【ArcGIS初学】产生随机点计算混淆矩阵

混淆矩阵:用于比较分类结果和地表真实信息 总体精度(overall accuracy) :指对角线上所有样本的像元数(正确分类的像元数)除以所有像元数。 生产者精度(producers accuracy) :某类中正确分类的像元数除以参考数据中该类的像元数(列方向),又称…

认识机器学习中的结构风险最小化准则

上一篇文章我们学习了关于经验风险最小化准则,其核心思想是通过最小化训练数据上的损失函数来优化模型参数,从而提高模型在训练集上的表现。但是这也会导致一个问题,经验风险最小化原则很容易导致模型在训练集上错误率很低,但在未…

设计模式-工厂模式/抽象工厂模式

工厂模式 定义 定义一个创建对象的接口,让子类决定实列化哪一个类,工厂模式使一个类的实例化延迟到其子类; 工厂方法模式是简单工厂模式的延伸。在工厂方法模式中,核心工厂类不在负责产品的创建,而是将具体的创建工作…

Chatper 4: Implementing a GPT model from Scratch To Generate Text

文章目录 4 Implementing a GPT model from Scratch To Generate Text4.1 Coding an LLM architecture4.2 Normalizing activations with layer normalization4.3 Implementing a feed forward network with GELU activations4.4 Adding shortcut connections4.5 Connecting at…

Unity ShaderGraph中Lit转换成URP的LitShader

ShaderGraph中的LitShader如下: 在顶点和片元着色器暴露出了上图中的几个参数,要转换成URPLitShaderLab,首先要找到这几个参数,打开LitShader,找到第一个Pass,可以看到下图中的顶点和片元的定义函数,还有引…

uni-app的学习

uni-app 有着跨平台支持、丰富的插件和生态系统、高性能、集成开发工具HBuilderX的配合使用。允许使用者仅通过一套代码发布到多平台使用。 uni-app官网 uni-app 是一个适合开发跨平台移动应用和小程序的框架,能够大幅提高开发效率。 一、了解 1.1 工具准备 从Git…

USRP X310 Windows 烧录镜像

说明 USRP-X 系列设备包含两个用于两个以太网通道的 SFP 端口。由于 SFP 端口支持 1 千兆 (SFP) 和 10 千兆 (SFP) 收发器,因此 UHD 附带了多个 FPGA 图像,以确定上述接口的行为。 注意:Aurora 图像需要从 FPGA 源代码手动构建。 FPGA 图像…

Sprint Boot教程之五十八:动态启动/停止 Kafka 监听器

Spring Boot – 动态启动/停止 Kafka 监听器 当 Spring Boot 应用程序启动时,Kafka Listener 的默认行为是开始监听某个主题。但是,有些情况下我们不想在应用程序启动后立即启动它。 要动态启动或停止 Kafka Listener,我们需要三种主要方法…

Docker save load 镜像 tag 为 <none>

一、场景分析 我从 docker hub 上拉了这么一个镜像。 docker pull tomcat:8.5-jre8-alpine 我用 docker save 命令想把它导出成 tar 文件以便拷贝到内网机器上使用。 docker save -o tomcat-8.5-jre8-alpine.tar.gz 镜像ID 当我把这个镜像传到别的机器,并用 dock…

计算机网络(三)——局域网和广域网

一、局域网 特点:覆盖较小的地理范围;具有较低的时延和误码率;使用双绞线、同轴电缆、光纤传输,传输效率高;局域网内各节点之间采用以帧为单位的数据传输;支持单播、广播和多播(单播指点对点通信…

浅谈云计算01 | 云计算服务的特点

在当今数字化时代,云计算作为一种强大的技术解决方案,正逐渐改变着企业和个人对信息技术的使用方式。本文将详细探讨云计算的五个主要特点,包括按需自助服务、广泛的网络接入、资源池化、快速弹性伸缩以及可计量服务。 一、按需自助服务 云…

【Qt】01-了解QT

踏入QT的殿堂之路 前言一、创建工程文件1.1 步骤介绍1.2 编译介绍方法1、方法2、编译成功 二、了解框架2.1 main.cpp2.2 .Pro文件2.2.1 注释需要打井号。2.2.2 F1带你进入帮助模式2.2.3 build文件 2.3 构造函数 三、编写工程3.1 main代码3.2 结果展示 四、指定父对象4.1 main代…

DDD - 微服务设计与领域驱动设计实战(上)_统一建模语言及事件风暴会议

文章目录 Pre概述业务流程需求分析的困境统一语言建模事件风暴会议什么是事件风暴(Event Storming)事件风暴会议 总结 Pre DDD - 软件退化原因及案例分析 DDD - 如何运用 DDD 进行软件设计 DDD - 如何运用 DDD 进行数据库设计 DDD - 服务、实体与值对…

ssh2详细使用步骤,以及常用方法介绍

开源地址:https://github.com/mscdex/ssh2 ssh2 是一个功能强大的 Node.js 库,用于通过 SSH 协议与远程服务器交互。它支持命令执行、文件上传下载、端口转发等操作,常用于自动化脚本和远程服务器管理。 下面是 ssh2 的详细使用步骤和常用方…

Leetcode 377. 组合总和 Ⅳ 动态规划

原题链接&#xff1a;Leetcode 377. 组合总和 Ⅳ 可参考官解 class Solution { public:int combinationSum4(vector<int>& nums, int target) {vector<int> dp(target 1);dp[0] 1;// 总和为 i 的元素组合的个数for (int i 1; i < target; i) {// 每次都…

从epoll事件的视角探讨TCP:三次握手、四次挥手、应用层与传输层之间的联系

目录 一、应用层与TCP之间的联系 二、 当通信双方中的一方如客户端主动断开连接时&#xff0c;仅是在客户端的视角下连接已经断开&#xff0c;在服务端的眼中&#xff0c;连接依然存在&#xff0c;为什么&#xff1f;——触发EPOLLRDHUP事件&#xff1a;对端关闭连接或停止写…

dockerfile实现lnmp

dockerfile实现lnmp 自定义镜像实现整个架构 (基础镜像centos7) nginx cd /opt mkdir nginx mysql php vim Dockerfile docker network create --subnet172.111.0.0/16 mynetwork #创建自定义网段 docker run -itd --name nginx -p 80:80 --cpu-quota 20000 -m 512m -v /op…

unity下载newtonsoft-json

Package Manager&#xff0c;输入com.unity.nuget.newtonsoft-json 右键Assets-Reinport All

python学opencv|读取图像(三十一)缩放图像的三种方法

【1】引言 前序学习进程中&#xff0c;我们至少掌握了两种方法&#xff0c;可以实现对图像实现缩放。 第一种方法是调用cv2.resize()函数实现&#xff0c;相关学习链接为&#xff1a; python学opencv|读取图像&#xff08;三&#xff09;放大和缩小图像_python opencv 读取图…