第14章 大数据与数据科学知识点梳理

第14章 大数据与数据科学知识点梳理(附带页码)


在这里插入图片描述
◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386

◼ 大数据:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。P390

◼ 数据科学家:从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果 进行部署供相关方分析的人。P386

◼ 大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。P386

◼ 业务驱动:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。P387

◼ 数据科学依赖:1)丰富的数据源。2)信息组织和分析。3)信息交付。4)展示发现和数据洞察。P389

◼ 数据科学的过程阶段:1 定义大数据战略和业务需求。2 选择数据源。3 获得和接收数据源。4 制定数据假设和方法。5 集成和调整进行数据分析。6 使用模型探索数据。7 部署和监控。P388-389
在这里插入图片描述
◼ 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。提供 1)数据科学家可以挖掘和分析数据的环境。2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。3)数据仓库明细历史数据的备用存储区域。4)信息记录的在线归档。5)可以通过自动化的模型识别提取流数据的环境。

◼ 数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。

◼ 基于服务的体系结构(Services-Based Architecture,SBA)正成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据。数据会发送到 ODS 中实现即时存取,也会将数据发送到数据仓库中以实现历史积累。包括三个主要的组件,分别是 1)批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。2)加速层。只包括实时数据。3)服务层。提供连接批处理和加速层数据的接口。P393

◼ 机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合。无监督学习称为数据挖掘,监督学习是基于复杂的数字理论。第三分支正处于形成过程,没有经过教师的认可就可实现了目标优化,称为强化学习。通过编程使机器可以快速从查询中学习并适应不断变化的数据集,是机器学习。这些算法一般分为三种类型:1)监督学习(Supervised learning)。2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。P394

◼ 语义分析。从大量非结构化或半结构化数据中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。P394

◼ 数据挖掘(Data mining)机器学习的一个分支,无监督学习。技术:1)剖析(Profiling)。尝试描述典型行为,用于建立异常检测应用程序的行为规范。2)数据缩减(Data reduction)。用较小的数据集来替换大数据。3)关联(Association)。根据交易涉及的元素,找到它们之间的联系。4)聚类(Clustering)。基于元素的共享特征,聚合为不同的簇。5)自组织映射(Selforganizing maps)。减少评估空间的维度。P395

◼ 预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。当它接收到其它信息时,模型会触发组织的反应。预测模型的最简单形式是预估(Forecast)。P395

◼ 规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。P396

◼ 非结构化数据分析。结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。扫描和标记是向非结构化数据添加“钩子“的一个方法。P396

◼ 运营分析(Operational Analytics)运营 BI 或流式分析:是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。P396

◼ 数据可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。长期以来,可视化一直是数据分析的关键。P397

◼ 数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

◼ 【活动 1】定义大数据战略和业务需求。1)组织试图解决什么问题,需要分析什么。2)要使用或获取的数据源是什么。3)提供数据的及时性和范围。4)对其他数据结构的影响以及与其他数据结构的相关性。5)对现有建模数据的影响。P397

◼ 【活动 2】选择数据源。需要了解以下内容:1)数据源头。2)数据格式。3)数据元素代表什么。4)如何连接其他数据。5)数据的更新频率。需要评估数据的价值和可靠性:1)基础数据。2)粒度。3)一致性。4)可靠性。5)检查/分析新数据源。P398

◼ 【活动 3】获得和接收数据源。获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。P399

◼ 【活动 4】制定数据假设和方法。制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。P400

◼ 【活动 5】集成和调整数据进行分析。准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。一方法是使用共有键值整合数据的通用模型。另一方法是使用数据库引擎内的索扫描和连接数据。P400

◼ 【活动 6】使用模型探索数据。1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。4.创建数据可视化。必须满足与模
型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。P400-402

◼ 【活动 7】部署和监控。满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。2.使用附加数据源迭代。数据科学是一个迭代的过程。P402

◼ 工具大规模并行处理(MPP)。1)数据库内的高级分析。2)非结构化数据分析(Hadoop,MapReduce)。3)分析结果与操作系统的集成。4)跨多媒体和设备的数据可视化。5)链接结构化和非结构化信息的语义。6)使用物联网的新数据源。7)高级可视化能力。8)数据扩展能力。9)技术和工具集的协作。数据仓库、数据集市和操作型数据存储(ODS)。No-SQL 技术。批处理接口。大数据内存技术。决策标准工具集。流程实施工具。专业服务。

◼ 工具MPP 无共享技术和架构。基于分布式文件的数据库。 数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。p402-406

◼ MPP 无共享技术和架构。在所有可用的本地化硬件上,自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案。P403

◼ 基于文件的解决方案中使用的模型称为 MapReduce。该模型有三个主要步骤:1)映射(Map)。识别和获取需要分析的数据。2)洗牌(Shuffle)。依据所需的分析模式组合数据。3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。P404

◼ 方法:(1)解析建模。1)描述性建模以紧凑的方式汇总或表示数据结。。2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。(2)大数据建模。对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。P406-407

◼ 实施指南:管理数据仓库数据的许多一般规则适用于管理大数据。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。P407

◼ 战略交付成果应考虑管理以下要素:1)信息生命周期。2)元数据。3)数据质量。4)数据采集。5)数据访问和安全性。6)数据治理。7)数据隐私。8)学习和采用。9)运营。P407-408

◼ 就绪评估/风险评估。评估与关键成功因素相关的组织准备情况,具体包括:1)业务相关性。2)业务准备情况。3)经济可行性。4)原型。5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。7)市场上有多种工具和技术,满足一般需求将是一个挑战。8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。9)培养内部人才的时间可能会超过交付窗口的时间。P408

◼ 大数据实施将汇集多关键的跨职能角色。包括:1)大数据平台架构师。硬件、操作系统、文件系统和服务。2)数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到 Hadoop 集群以进行查询和分析。3)元数据专家。元数据接口、元数据架构和内容。4)分析设计主管。最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化。5)数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。P409

◼ 大数据和数据科学治理:寻源。共享。元数据。丰富。访问。P409

◼ 数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查。标准可能包括:1)分析范例、用户团体、主题域的工具标准。2)新数据的请求。3)数据集流程标准。4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:①数据包含和排除。②模型中的假设。③结果统计有效性。④结果解释的有效性。⑤采用适当的方法。P409-410

◼ 元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。

◼ 成熟的大数据组织使用数据质量工具集扫描数据输入源,用以了解相关信息,大多工具都有:1)发现。信息驻留在数据集中的位置。2)分类。基于标准化模式存在哪些类型的信息。3)分析。如何填充和构建数据。4)映射。可以将哪些其他数据集与这些值匹配。

◼ 度量指标:1.技术使用指标。2.加载和扫描指标。提取率和与用户社区的交互。3.学习和故事场景。常用的测量方法包括:1)已开发模型的数量和准确性。2)已识别的机会中实现的收入。3)避免已识别的威胁所降低的成本。P412

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/543355.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL之sql优化:intsert、主键、order by、group by等

insert优化 批量插入 手动提交事务 主键顺序插入(将在主键优化中介绍) 大批量插入数据 如果一次性需要插入大批量地数据,使用insert语句插入性能较低,此时使用MySQL数据库提供地load指令进行插入 下图第三条语句表示讲/root/s…

【算法基础2】前缀和与差分

目录 前缀和与差分1.综述2.前缀和(1)一维前缀和(2)二维前缀和(子矩阵的和) 3.差分(1)一维差分(2)二维差分(差分矩阵) 前缀和与差分 1…

攻防世界---Web_php_include

1.题目链接 2.补充知识&#xff1a; 3.构造&#xff1a;执行成功 /?pagedata://text/plain,<?php phpinfo()?> 4.构造下面url&#xff0c;得到目录路径 /?pagedata://text/plain,<?php echo $_SERVER[DOCUMENT_ROOT]?> 5构造下面url&#xff0c;读取该路径的…

【Linux】进程基础铺垫(二)软件基础:操作系统 (Operator System)

操作系统 软件上 —— 操作系统 (Operator System)为什么要有操作系统的管理&#xff1f;&#xff08;一&#xff09;概念&#xff08;二&#xff09;设计OS的目的&#xff1a;为什么要有操作系统的管理&#xff1f;&#xff08;三&#xff09;定位&#xff08;四&#xff09;如…

B02、垃圾回收 算法 概念-6.1

1、概念 1.1、前言 垃圾收集&#xff0c;不是Java语言的伴生产物。早在1960年&#xff0c;第一门开始使用内存动态分配和垃圾收集技术的Lisp语言诞生。 垃圾收集机制是Java的招牌能力&#xff0c;极大地提高了开发效率。如今&#xff0c;垃圾收集几乎成为现代语言的标配&#…

系统架构最佳实践 -- 一般优惠券思想和方案

1.优惠券系统的核心思想 默认的优惠券系统&#xff1a;根据运营人员设定的条件生成对应的优惠券模板、 优惠券码的要求:唯一性和有一定的识别性 优惠券码的格式&#xff08;一共18位&#xff09;&#xff1a;产品线类型&#xff08;前四位&#xff09;日期随机码&#xff08;中…

大模型应用工具 LangChain 入门书籍: LangChain 简明讲义

书籍信息 书名&#xff1a;《LangChain 简明讲义&#xff1a;从 0 到 1 构建 LLM 应用程序》出版社&#xff1a;电子工业出版社书籍链接&#xff1a;https://item.jd.com/14105705.html书籍配套代码&#xff1a;https://github.com/kebijuelun/langchain_book 书籍背景 计算机…

道可云文旅元宇宙平台:全面赋能文旅产业数字化转型

随着科技的迅猛发展&#xff0c;元宇宙、人工智能和虚拟数字人等技术逐渐成为推动社会进步的重要力量。在这一背景下&#xff0c;道可云文旅元宇宙平台以其独特的创新理念和前沿技术&#xff0c;为数字文博领域带来了革命性的变革。 道可云文旅元宇宙平台运用先进的元宇宙、人…

vue 上传csv文件

index---------主页面&#xff08;图1&#xff09; form-----------子页面&#xff08;图2&#xff09; index.vue /** 重点&#xff01;&#xff01;&#xff01;&#xff01; * 获取表单组件传递的信息&#xff0c;传给后端接口 * param {从form表单传递的数据} datas * Fi…

Java调用http接口的几种方式(HttpURLConnection、OKHttp、HttpClient、RestTemplate)

Java作为后端语言是开发接口实现功能供客户端调用接口&#xff0c;这些客户端中最主要是本项目的前端&#xff1b;但有时候也需要Java请求其他的接口&#xff0c;比如需要长连接转短链接&#xff08;请求百度的一个接口可以实现&#xff09;、获取三方OSS签名、微信小程序签名、…

SpringCloudalibaba之Nacos的配置管理

Nacos的配置管理 放个妹子能增加访问量&#xff1f; 动态配置服务 动态配置服务可以让您以中心化、外部化和动态化的方式管理所有环境的应用配置和服务配置。 动态配置消除了配置变更时重新部署应用和服务的需要&#xff0c;让配置管理变得更加高效和敏捷。 配置中心化管…

基于ssm的智慧餐厅点餐管理系统设计与实现(java项目+文档+元)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的智慧餐厅点餐管理系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 智慧餐厅点餐管理系统设计…

寻找好用项目管理软件?你需要知道的关键信息

项目管理的目标就是确保项目高质量的交付&#xff0c;有了项目管理软件让这一切变得不再是难事。项目管理软件哪家好&#xff1f;好用的项目管理软件是什么样的&#xff1f;1.易于集成现有系统、2.灵活定制、3.性价比高、4.支持任务流程自动化。 一、易于集成——丰富场景 为了…

MGRE环境下运行OSPF

一、分析要求 自行定义公网网段和私有网段&#xff0c;ISP设备仅配置IP地址R1/R4/R5构建Full-Mesh结构R1/R2/R3构建Hub-Spoke结构&#xff0c;R1为NHS除ISP设备&#xff0c;其余路由器运行OSPF 二、实施过程 1. 配置IP及环回地址 R1 [R1]int g 0/0/0 [R1-GigabitEthernet0/…

MuseV:不限视频时长的AI视频生成工具

在不久前 OpenAI Sora 以其优秀且惊人的视频生成效果迅速走红&#xff0c;更是在一众文生视频模型中脱颖而出&#xff0c;成为了文生视频领域的领头羊。 同时它也推动了行业内文生视频技术的发展。今天小编为大家分享一款新开源的文生视频项目MuseV&#xff0c;据说可以生成不…

什么是 MVVM、mvc 模型

mvc模型 MVC: MVC 即 model-view-controller&#xff08;模型-视图-控制器)是项目的一种分层架构思想&#xff0c;它把复杂的业务逻辑&#xff0c; 抽离为职能单一的小模块&#xff0c;每个模块看似相互独立&#xff0c;其实又各自有相互依赖关系。它的好处是&#xff1a;保证了…

笔记83:二叉树前中后序遍历(迭代法 + 栈)

题目1&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题目2&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题目3&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 注意1&#xff1a;每种遍历方式我都提供了两种方法&#xff0c;带图解的方法为个人尝…

技术周刊的转变:如何平衡热爱与现实?

大家好&#xff0c;我是那个自己打脸自己的猫哥&#xff0c;本来说周刊不做订阅制的&#xff0c;现在却推出了订阅专栏。今天想为自己辩护一下&#xff0c;同时聊聊技术周刊今后的发展计划。 首先回顾一下我过去的想法吧&#xff0c;然后再解释为什么会突然出现转变。 出于对…

Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系

码到三十五 &#xff1a; 个人主页 心中有诗画&#xff0c;指尖舞代码&#xff0c;目光览世界&#xff0c;步履越千山&#xff0c;人间尽值得 ! Elasticsearch是一个强大的搜索引擎&#xff0c;它提供了丰富的功能来满足复杂的搜索需求。其中&#xff0c;父子索引类型的join功…

伺服系统中电机磁极偏角自学习的实现方案

一、 电机磁极偏角自学习原理简述 要知道磁极偏角&#xff0c;首先要明确的是磁极角&#xff0c;在我个人的理解里磁极角就是park和Ipark变换里所需的电角度&#xff0c;我们的矢量控制方法是定磁链的&#xff0c;就是要保证两相同步旋转坐标系的Id轴和三相静止坐标系的A轴要重…