第十四章大数据和数据科学4分

14.1 引言

14.1.3 科学理念

1.数据科学

数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
数据科学依赖于:
1)丰富的数据源。具有能够展示隐藏在组织或客户行为中不可见模式的潜力。
2)信息组织和分析。用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。
3)信息交付。针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对行为的深入洞察。
4)展示发现和数据洞察。分析和揭示结果,分享洞察观点(表 14-1)对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用。
在这里插入图片描述

2.数据科学的过程

在数据科学的过程中 获得和接收数据源工作量最大

3.大数据

早 期 ,人 们 通 过 3V 来 定 义 大 数 据 含 义 的 特 征 :数 据 量 大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)(Laney,2001)。随着越来越多的组织开始深挖大数据的潜力,已经不止于以上三个 V。V 列表有了更多的扩展:
1)数据量大(Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
5)数据波动性大(Volatility)。指数据更改的频率,以及由此导致的数据有效时间短。

5.大数据来源

结构化数据+非结构化数据

6.数据湖

数据湖是一种可以 提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。如可以提供:
1)数据科学家可以挖掘和分析数据的环境。
2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
3)数据仓库明细历史数据的备用存储区域。
4)信息记录的在线归档。
5)可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成 数据沼泽 ——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

Q:数据湖管理不好会变成?
A 池塘 B 沼泽 C 大海A:不是池塘,是沼泽。
Q:数据湖是否管理好表示什么?
A 元数据是否管理好?B 数据质量得到保证A:元数据是否管理好

7.基于服务的架构基于服务的体系结构(Services-Based Architecture,SBA)

8.机器学习

机器学习探索了学习算法的构建和研究。这些算法一般分为三种类型:
1)监督学习(Supervised learning)。基于通用规则(如将 SPAM 邮件与非 SPAM 邮件分开)。
2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。
3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。

Q:预测明天销售额是多少?A:有无限可能性,
无监督学习
Q:预测明年销售额是否笔今年多?ABC 一样 D 不知道
监督学习

12.规范分析

规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。 规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。由于规范分析可以显示各种决策的含义,因此可以建议如何利用机会或避免风险。规范分析可以不断接收新数据以重新预测和重新规定。该过程可以提高预测准确性,并提供更好的方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/570753.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

顺序表的应用-通讯录

顺序表的应用-通讯录 1.操作2.功能要求2.1.功能要求2.2.思路小结2.3.文件梳理2.4.代码实现"SeqList.h""Contact.h""SeqList.c""Contact.c""test.c" 1.操作 链接: 顺序表专题 这篇文章介绍了顺序表的概念与基本操作。 本文将…

什么是 GitHub Wiki 以及如何使用它?

GitHub Wiki 是你项目文档的一个很好的地方。你可以使用 wiki 来创建、管理和托管你的存储库的文档,以便其他人可以使用并为你的项目做出贡献。 GitHub Wiki 很容易开始使用,无需安装任何其他软件。最好的部分是 wiki 与你的 GitHub 存储库集成在一起。…

《九》Qt各种对话框之QColorDialog

前言 QColorDialog类继承于QDialog,是一个设计用来选择颜色的对话框部件。 QColorDialog 在介绍 QColorDialog 之前,我们先简单介绍一下 QColor 类。QColor 类用于表示颜色,支持 RGB(红绿蓝)三原色表示,也…

【C++】日期计算机

个人主页:救赎小恶魔 欢迎大家来到小恶魔频道 好久不见,甚是想念 今天我们要讲述的是一个日期类计算机的代码实现 引言: 我们日常生活中可能会有一个烦恼。 今天几月几号?过n天后又是几月几号?某年某月某天和x年…

PE文件的导入表,动态链接库中的函数应该如何导入

导入地址表IAT IAT保存的内容与windos操作系统的核心进程、内存、DLL结构有关。IAT是一种表格,用来记录程序正在使用哪些库中的哪些函数。 动态链接库(DLL) 常见的kernel.dll就是一个非常重要的动态链接库,其中包含了运行程序时需要使用到的函数&…

文件操作(1)

为什么使⽤⽂件? 如果没有⽂件,我们写的程序的数据是存储在电脑的内存中,如果程序退出,内存回收,数据就丢失了,等再次运⾏程序,是看不到上次程序的数据的,如果要将数据进⾏持久化的…

再谈C语言——理解指针(四)

assert断⾔ assert.h 头⽂件定义了宏 assert() ,⽤于在运⾏时确保程序符合指定条件,如果不符合,就报错终⽌运⾏。这个宏常常被称为“断⾔”。 assert(p ! NULL); 上⾯代码在程序运⾏到这⼀⾏语句时,验证变量 p 是否等于 NULL 。…

JavaScript 数学对象 Math

Math对象其实就是数学对象&#xff0c;它给我们提供了各种各样的数学功能。 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>首页</title> </head><body><script type"text/javascript"&g…

linux的“>”和“>>”

在Linux中&#xff0c;>和>>都是用于文件重定向的操作符&#xff0c;它们用于将命令的输出发送到文件中。 > 用于创建一个新文件或覆盖现有文件的内容。当你执行一个如 command > file.txt 的命令时&#xff0c;如果 file.txt 文件存在&#xff0c;它的内容将被…

【uniapp】引入uni-ui组件库

&#xff08;1&#xff09;新建项目的时候选择 uni-ui项目 &#xff08;2&#xff09;已经创建好的项目去官网单独安装 跳转单独安装组件 https://uniapp.dcloud.net.cn/component/uniui/quickstart.html#%E9%80%9A%E8%BF%87-uni-modules-%E5%8D%95%E7%8B%AC%E5%AE%89%E8%A3%8…

YOLOv9训练损失、精度、mAP绘图功能 | 支持多结果对比,多结果绘在一个图片(消融实验、科研必备)

一、本文介绍 本文给大家带来的是YOLOv9系列的绘图功能&#xff0c;我将向大家介绍YOLO系列的绘图功能。我们在进行实验时&#xff0c;经常需要比较多个结果&#xff0c;针对这一问题&#xff0c;我写了点代码来解决这个问题&#xff0c;它可以根据训练结果绘制损失(loss)和mA…

VBA技术资料MF144:将PDF首页作为对象插入工作表

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

【C++】如何用C++写一个日期计算器

目录 前言 代码的布局 设计数据 方法声明 方法的实现 获取某年某月的天数 *全缺省的构造函数 * 拷贝构造函数 *赋值运算符重载 *析构函数 日期天数 日期天数 日期-天数 日期-天数 前置 后置 后置-- 前置-- 实现比较大小运算符重载思路 >运算符重载 运算…

盲人餐厅点餐:科技之光照亮餐桌上的美食之旅

在现代社会&#xff0c;餐厅不仅是满足口腹之欲的场所&#xff0c;更是一个社交、放松的重要空间。然而&#xff0c;对于视障人士而言&#xff0c;盲人餐厅点餐这一日常行为&#xff0c;却往往伴随着诸多不便与挑战。幸运的是&#xff0c;科技的革新正为这一群体带来前所未有的…

递归神经网络(RNN)在AI去衣技术中的深度应用

在人工智能&#xff08;AI&#xff09;技术飞速发展的今天&#xff0c;图像处理和计算机视觉领域不断取得新的突破。其中&#xff0c;AI去衣技术作为一个具有挑战性的研究方向&#xff0c;引起了广大研究者和公众的关注。递归神经网络&#xff08;RNN&#xff09;作为深度学习的…

【linux】编译器使用

目录 1. gcc &#xff0c;g 编译器使用 a. 有关gcc的指令&#xff08;g同理&#xff09; 2. .o 文件和库的链接方式 a. 链接方式 b. 动态库 和 静态库 优缺点对比 c. debug 版本 和 release 版本 1. gcc &#xff0c;g 编译器使用 a. 有关gcc的指令&#xff08;g同理&…

【第19章】spring-i8n

文章目录 前言一、准备二、Java国际化1.测试类2.测试结果 三、Spring国际化1.配置文件2.测试类3.测试结果4.占位符4.1 准备4.2 测试类4.3 测试结果 总结 前言 在Spring中实现国际化Internationalization&#xff08;i18n&#xff09;其实就是完成语言的切换&#xff0c;类似于…

4.SpringCloud基础项目搭建利用RestTemplate实现远程调用

简单的微服务架构 父pom.xml <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apa…

短信视频提取批量工具,免COOKIE,博主视频下载抓取,爬虫

痛点&#xff1a;关于看了好多市面的软件&#xff0c;必须要先登录自己的Dy号才能 然后找到自己的COOKIE 放入软件才可以继续搜索&#xff0c;并且无法避免长时间使用 会导致无法正常显示页面的问题。 有没有一种方法 直接可以使用软件&#xff0c;不用设置的COOKIE的方法呢 …

Linux驱动开发:掌握SPI通信机制

目录标题 1、SPI简介2、SPI通信机制3、Linux内核中的SPI支持4、SPI核心API5、SPI控制器驱动6、SPI设备驱动 7、编写SPI设备驱动8、调试SPI驱动 在Linux驱动开发中&#xff0c;串行外设接口(SPI)是一种常见的高速全双工通信协议&#xff0c;用于连接处理器和各种外设。本文将深入…