15(第十四章,大数据和数据科学)

目录

概述

基本概念

数据仓库/传统商务智能与数据科学的比较

数据科学的过程

大数据

大数据来源

数据湖

机器学习

监督学习

无监督学习

强化学习

扩展

1、数据仓库(Data Warehouse)

2、数据湖(Data Lake)

3、大数据平台1.0

4、数据中台

5、数据底座

6、湖仓一体化大数据平台(Data Lakehouse)

7、数据仓库、数据湖和湖仓一体的差异


概述

传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。

信息收敛三角:

数据科学将数据挖掘、统计分析、机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。因为数据分析师或数据科学家会使用一些科学的方法来开发和评估模型,所有开发预测模型有时被称为数据科学。

基本概念

数据仓库/传统商务智能与数据科学的比较

数据仓库/传统商务智能数据科学
描述性分析预测性分析规范性分析
事后结论洞察预见

基于历史:

过去发生了什么?

为什么发生?

基于预测模型:

未来可能会发生什么?

基于场景:

我们该做什么才能保证事情发生?

数据科学的过程

  1. 定义大数据战略和需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

大数据

早期通过3V来定义大数据的特征:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)

后来V列表有了更多的扩展:

  1. 数据量大 (Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
  2. 数据更新快 (Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
  3. 数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
  4. 数据黏度大(Viscosity)。指数据使用或集成的难度比较高
  5. 数据波动性大 (Volatility)。指数据更改的频率,以及由此导致的数据有效时间短
  6. 数据准确性低 (Veracity)。指数据的可靠度不高。

大数据来源

来源于结构化数据和非结构化数据。

从上图其实我们能看出来:

数据仓库是面向BI的;

数据科学是面向AI的。

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:

  1. 数据科学家可以挖掘和分析数据的环境。
  2. 原始数据的集中存储区域,只需很少量的转换 (如果需要的话)。
  3. 数据仓库明细历史数据的备用存储区域。
  4. 信息记录的在线归档。
  5. 可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成数据沼泽一一杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

机器学习

预测分析是有监督学习的子领域,规范分析比预测分析更进一步。

监督学习

基于通用规则,例如将SPAM邮件与非SPAM邮件区分开,这种结果是有限制的,刚刚那个例子,结果就是“是”或“否”。

无监督学习

基于找到的哪些隐藏的规律(数据挖掘),结果是无限的,例如让他去预测明年的销售业绩是多少这种。

强化学习

基于目标的实现,例如让他在国际象棋中击败对手。

扩展

我们凑这篇文章,介绍下数据仓库、大数据平台、数据湖、数据中台、数据底座、湖仓一体化大数据平台的差异。

1、数据仓库(Data Warehouse)

听过很多次了,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,能容纳更加庞大的数据集

2、数据湖(Data Lake)

数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过流程制度的处理,如确定数据Owner,满足要求)。

3、大数据平台1.0

个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析、机器学习程序等 ETL 流水线,另外可以包括数据仓库系统等核心功能。

4、数据中台

阿里提出的中国本地的一个概念,数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产品,是一整套策略和解决方案的集合。

5、数据底座

数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。

6、湖仓一体化大数据平台(Data Lakehouse)

是新兴起的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。

大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)

7、数据仓库、数据湖和湖仓一体的差异

数据仓库、数据湖和湖仓一体之间的差异主要体现在以下几点。

  • (1)数据类型:数据仓库内部高度结构化且多为关系型数据库,一般只支持在入仓前完成处理工作的结构化数据存储;数据湖可包容开放的数据类型,但其主要存储原始格式的数据,数据加工处理属于额外工作;湖仓一体存储所有类型的已处理和原格式数据。 
  • (2)采集过程:数据仓库的写时模式需在数据入仓前预先建模,并按照既定的ETL模式,以专属格式导入;数据湖的读时模式在数据入湖后按需定义架构,湖中数据以开放格式存在以适应多变的业务需求,ELT;湖仓一体同时支持预定义数据和开放数据导入以及需求导向的数据加工转换。 
  • (3)访问方式:数据仓库内的数据访问以SQL(Structured Query Language)为主,用户可以获取具有专属格式的数据;数据湖和湖仓一体配置大量开放API,可支持对数据的直接读取,读取方式包括SQL、 R、Python等语言,湖仓一体同时支持原格式和处理后数据的访问。 
  • (4)可靠性和安全性:数据仓库发展较为成熟,基于其高度结构化的管理能力,可实现高质量和安全性的数据存储;数据湖内部数据具有多源异构性,尚未形成有效治理策略,易导致数据沼泽,这也是其当前面临的最大挑战;湖仓一体在湖存储机制上添加数据仓库管理功能和数据安全保障机制,可显著提高数据可靠性和安全性。
  • (5)适用场景:数据仓库适用于BI(Business Intelligence)、SQL应用和报告等;数据湖适用于数据科学和机器学习,二者仅支持有限应用场景;湖仓一体可同时满足SQL分析需求和数据科学、机器学习等高级分析需求,且支持直接在原始数据上应用各类分析工具,以及对流数据的持续处理和实时分析。
数据类型采集过程访问方式可靠性和安全性使用场景
数据仓库结构化、已处理数据写时模式SQL为主,支持API数据质量高、安全性高BI
数据湖结构化、半结构化、非结构化原始数据读时模式开放API数据质量低、安全性低、易形成数据沼泽AI
数仓一体结构化、半结构化、非结构化原始数据写时模式、读时模式开放API数据质量高、安全性高丰富场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/578160.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024蓝桥杯CTF--逆向

蓝桥杯付费CT--逆向 题目:RC4题目:happytime总结: 题目:RC4 先查壳,无壳,并且是32位: 用32位的ida打开,直接定位到main函数: 重点关注sub_401005函数,这个应…

基于Kubernetes部署free5gc核心网

说明: 本文仅适合个人对5gc核心网感兴趣测、研究使用。 操作系统版本: # uname -r 5.4.0-177-generic # lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.5 LTS Release: 20.04 Codename: …

spring boot3单模块项目工程搭建-上(个人开发模板)

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 目录 写在前面 上文衔接 常规目录创建 common目录 exception.handle目录 result.handle目录 controller目录 service目录 mapper目录 entity目录 test目录 写在最后 写在前面 本文…

CSS学习(选择器、盒子模型)

1、CSS了解 CSS:层叠样式表,一种标记语言,用于给HTML结构设置样式。 样式:文字大小、背景颜色等 p标签内不能嵌套标题标签。 px是相对于分辨率而言的, em是相对于浏览器的默认字体, rem是相对于HTML根元…

更易使用,OceanBase开发者工具 ODC 4.2.4 版本升级

亲爱的朋友们,大家好!我们的ODC(OceanBase Developer Center )再次迎来了重要的升级V 4.2.4,这次我们诚意满满,从五个方面为大家精心打造了一个更加易用、贴心,且功能更强的新版本,相…

如何写好代码?

文章目录 前言内容代码应当易于理解命名注释格式循环和逻辑设计函数设计类其它(编程规范、静态检查工具)重构 前言 在软件开发领域,写好代码是至关重要的一环。不论是在学校学习的学生,刚刚毕业的应届生,还是刚步入企…

JAVA SWING JTABLE表格,点击表头数据可以排序,且第一二行位置固定,不参与排序

对于JAVA SWING 界面开发,使用表格JTABLE开发过程中,一些情况下可能需要在点击表头时对数据进行排序处理。对于简单的排序处理,jtable的setAutoCreateRowSorter方法可满足,但是对于高要求的排序,则满足不了。 比如&am…

《html自用使用指南》--基于w3School实践

1.基础标签 文本输入时&#xff0c;在编辑器中的换行&#xff0c;多个空格&#xff0c;都被编辑器看作一个空格 <p> 这个段落 在源代码 中 包含 许多行 但是 浏览器 忽略了 它们。 </p>结果&#xff1a;这个段落 在源代码 中 包含 许多行 但是 浏览器…

惊!文件夹突变文件,揭秘背后原因及数据恢复秘籍

在使用电脑时&#xff0c;我们有时会遇到一些意想不到的问题。比如&#xff0c;你可能会突然发现&#xff0c;原本存储着大量重要资料的文件夹&#xff0c;竟然变成了一个无法打开的文件。这种情况听起来可能有些匪夷所思&#xff0c;但它确实存在&#xff0c;且给用户带来了巨…

微信收款码0.2费率开通

很多人想申请低手续费率的收款码不知从何下手&#xff0c;在参考了大量博客教学之后&#xff0c;终于搞懂了详细流程以及注意事项。在此记录一下。我申请的是一个只需要0.2%费率的微信收款码&#xff0c;申请时间是2022年2月12日。申请之前只需要准备营业执照和法人身份z&#…

用不了ChatGPT?快试试免费又强大的Anthropic Claude

一、Claude 简介 Anthropic 官方&#xff1a; https://www.anthropic.com/product Claude 是最近新开放的一款 AI 聊天机器人&#xff0c;是世界上最大的语言模型之一&#xff0c;比之前的一些模型如 GPT-3 要强大得多&#xff0c;因此 Claude 被认为是 ChatGPT 最有力的竞争…

25计算机考研院校数据分析 | 南京大学

南京大学&#xff08;Nanjing University&#xff09;&#xff0c;简称“南大”&#xff0c;是中华人民共和国教育部直属、中央直管副部级建制的全国重点大学&#xff0c;国家首批“双一流”、“211工程”、“985工程”重点建设高校&#xff0c;入选首批“珠峰计划”、“111计划…

Perfectly Clear Workbench for mac/win:让图像清晰不再是难题

在数字时代&#xff0c;图像处理已经成为我们日常生活和工作中的必备技能。无论是专业摄影师&#xff0c;还是业余爱好者&#xff0c;都渴望拥有一款能够轻松提升图像质量的软件。今天&#xff0c;我要向大家推荐一款卓越的图像清晰处理软件——Perfectly Clear Workbench&…

NAT网络地址转换实验(华为)

思科设备参考&#xff1a;NAT网络地址转换实验&#xff08;思科&#xff09; 一&#xff0c;技术简介 NAT&#xff08;Network Address Translation&#xff09;&#xff0c;即网络地址转换技术&#xff0c;是一种在现代计算机网络中广泛应用的技术&#xff0c;主要用于有效管…

将游戏界面与注册/登录界面连接到一起

一、 导包 在注册页面中导入一个import subprocess包 二、 使用代码将其连接到一起 在循环中加入下面这一行代码&#xff0c;用来实现效果 subprocess.run(["python", "game代码.py"]

容器安全-镜像扫描

前言 容器镜像安全是云原生应用交付安全的重要一环&#xff0c;对上传的容器镜像进行及时安全扫描&#xff0c;并基于扫描结果选择阻断应用部署&#xff0c;可有效降低生产环境漏洞风险。容器安全面临的风险有&#xff1a;镜像风险、镜像仓库风险、编排工具风险&#xff0c;小…

【图解计算机网络】TCP协议三次握手与四次挥手

TCP协议三次握手与四次挥手 三次握手流程为什么是三次握手&#xff0c;而不是两次或四次四次挥手流程TIME_WAIT 为什么要等待 2MSL为什么握手是三次&#xff0c;挥手是四次&#xff1f; 三次握手流程 首先是客户端&#xff08;也就是我们的浏览器&#xff09;发送一个SYN标志位…

在Jupyter notebook中添加虚拟环境

通常我们打开Jupyter notebook&#xff0c;创建一个新文件&#xff0c;只有一个Python3&#xff0c;但是我们也会想使用自己创建的虚拟环境&#xff0c;很简单仅需几部即可将自己的conda环境添加到jupyter notebook中。 1. 创建并激活conda环境&#xff08;已有可跳过&#xf…

Datasophon1.2.1集成Dinky1.0.1

Dinky 下载地址: https://github.com/DataLinkDC/dinky/releases/tag/v1.0.1 Dinky 官网&#xff1a;https://www.dinky.org.cn/ 1.下载Dinky wget https://github.com/DataLinkDC/dinky/releases/download/v1.0.1/dinky-release-1.16-1.0.1.tar.gz mv dinky-release-1.16-1.…

selenium入门篇(环境搭建、八大定位)

背景 Web自动化测现状 1. 属于 E2E 测试 2. 过去通过点点点 3. 好的测试&#xff0c;还需要记录、调试网页的细节 一、selenium环境搭建 一键搭建 pip3 install webdriver-helper 安装后自动的完成&#xff1a; 1. 查看浏览器的版本号 2. 查询操作系统的类型 …