第14章 大数据与数据科学知识点梳理(附带页码)
◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386
◼ 大数据:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。P390
◼ 数据科学家:从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果 进行部署供相关方分析的人。P386
◼ 大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。P386
◼ 业务驱动:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。P387
◼ 数据科学依赖:1)丰富的数据源。2)信息组织和分析。3)信息交付。4)展示发现和数据洞察。P389
◼ 数据科学的过程阶段:1 定义大数据战略和业务需求。2 选择数据源。3 获得和接收数据源。4 制定数据假设和方法。5 集成和调整进行数据分析。6 使用模型探索数据。7 部署和监控。P388-389
◼ 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。提供 1)数据科学家可以挖掘和分析数据的环境。2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。3)数据仓库明细历史数据的备用存储区域。4)信息记录的在线归档。5)可以通过自动化的模型识别提取流数据的环境。
◼ 数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。
◼ 基于服务的体系结构(Services-Based Architecture,SBA)正成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据。数据会发送到 ODS 中实现即时存取,也会将数据发送到数据仓库中以实现历史积累。包括三个主要的组件,分别是 1)批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。2)加速层。只包括实时数据。3)服务层。提供连接批处理和加速层数据的接口。P393
◼ 机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合。无监督学习称为数据挖掘,监督学习是基于复杂的数字理论。第三分支正处于形成过程,没有经过教师的认可就可实现了目标优化,称为强化学习。通过编程使机器可以快速从查询中学习并适应不断变化的数据集,是机器学习。这些算法一般分为三种类型:1)监督学习(Supervised learning)。2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。P394
◼ 语义分析。从大量非结构化或半结构化数据中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。P394
◼ 数据挖掘(Data mining)机器学习的一个分支,无监督学习。技术:1)剖析(Profiling)。尝试描述典型行为,用于建立异常检测应用程序的行为规范。2)数据缩减(Data reduction)。用较小的数据集来替换大数据。3)关联(Association)。根据交易涉及的元素,找到它们之间的联系。4)聚类(Clustering)。基于元素的共享特征,聚合为不同的簇。5)自组织映射(Selforganizing maps)。减少评估空间的维度。P395
◼ 预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。当它接收到其它信息时,模型会触发组织的反应。预测模型的最简单形式是预估(Forecast)。P395
◼ 规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。P396
◼ 非结构化数据分析。结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。扫描和标记是向非结构化数据添加“钩子“的一个方法。P396
◼ 运营分析(Operational Analytics),运营 BI 或流式分析:是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。P396
◼ 数据可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。长期以来,可视化一直是数据分析的关键。P397
◼ 数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。
◼ 【活动 1】定义大数据战略和业务需求。1)组织试图解决什么问题,需要分析什么。2)要使用或获取的数据源是什么。3)提供数据的及时性和范围。4)对其他数据结构的影响以及与其他数据结构的相关性。5)对现有建模数据的影响。P397
◼ 【活动 2】选择数据源。需要了解以下内容:1)数据源头。2)数据格式。3)数据元素代表什么。4)如何连接其他数据。5)数据的更新频率。需要评估数据的价值和可靠性:1)基础数据。2)粒度。3)一致性。4)可靠性。5)检查/分析新数据源。P398
◼ 【活动 3】获得和接收数据源。获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。P399
◼ 【活动 4】制定数据假设和方法。制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。P400
◼ 【活动 5】集成和调整数据进行分析。准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。一方法是使用共有键值整合数据的通用模型。另一方法是使用数据库引擎内的索扫描和连接数据。P400
◼ 【活动 6】使用模型探索数据。1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。4.创建数据可视化。必须满足与模
型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。P400-402
◼ 【活动 7】部署和监控。满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。2.使用附加数据源迭代。数据科学是一个迭代的过程。P402
◼ 工具:大规模并行处理(MPP)。1)数据库内的高级分析。2)非结构化数据分析(Hadoop,MapReduce)。3)分析结果与操作系统的集成。4)跨多媒体和设备的数据可视化。5)链接结构化和非结构化信息的语义。6)使用物联网的新数据源。7)高级可视化能力。8)数据扩展能力。9)技术和工具集的协作。数据仓库、数据集市和操作型数据存储(ODS)。No-SQL 技术。批处理接口。大数据内存技术。决策标准工具集。流程实施工具。专业服务。
◼ 工具:MPP 无共享技术和架构。基于分布式文件的数据库。 数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。p402-406
◼ MPP 无共享技术和架构。在所有可用的本地化硬件上,自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案。P403
◼ 基于文件的解决方案中使用的模型称为 MapReduce。该模型有三个主要步骤:1)映射(Map)。识别和获取需要分析的数据。2)洗牌(Shuffle)。依据所需的分析模式组合数据。3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。P404
◼ 方法:(1)解析建模。1)描述性建模以紧凑的方式汇总或表示数据结。。2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。(2)大数据建模。对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。P406-407
◼ 实施指南:管理数据仓库数据的许多一般规则适用于管理大数据。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。P407
◼ 战略交付成果应考虑管理以下要素:1)信息生命周期。2)元数据。3)数据质量。4)数据采集。5)数据访问和安全性。6)数据治理。7)数据隐私。8)学习和采用。9)运营。P407-408
◼ 就绪评估/风险评估。评估与关键成功因素相关的组织准备情况,具体包括:1)业务相关性。2)业务准备情况。3)经济可行性。4)原型。5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。7)市场上有多种工具和技术,满足一般需求将是一个挑战。8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。9)培养内部人才的时间可能会超过交付窗口的时间。P408
◼ 大数据实施将汇集多关键的跨职能角色。包括:1)大数据平台架构师。硬件、操作系统、文件系统和服务。2)数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到 Hadoop 集群以进行查询和分析。3)元数据专家。元数据接口、元数据架构和内容。4)分析设计主管。最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化。5)数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。P409
◼ 大数据和数据科学治理:寻源。共享。元数据。丰富。访问。P409
◼ 数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查。标准可能包括:1)分析范例、用户团体、主题域的工具标准。2)新数据的请求。3)数据集流程标准。4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:①数据包含和排除。②模型中的假设。③结果统计有效性。④结果解释的有效性。⑤采用适当的方法。P409-410
◼ 元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。
◼ 成熟的大数据组织使用数据质量工具集扫描数据输入源,用以了解相关信息,大多工具都有:1)发现。信息驻留在数据集中的位置。2)分类。基于标准化模式存在哪些类型的信息。3)分析。如何填充和构建数据。4)映射。可以将哪些其他数据集与这些值匹配。
◼ 度量指标:1.技术使用指标。2.加载和扫描指标。提取率和与用户社区的交互。3.学习和故事场景。常用的测量方法包括:1)已开发模型的数量和准确性。2)已识别的机会中实现的收入。3)避免已识别的威胁所降低的成本。P412