数据科学与大数据导论期末复习笔记(大数据)

 来自于深圳技术大学,此笔记涵盖了期末老师画的重点知识,分享给大家。

  • 等深分箱和等宽分箱的区别:
  • 等宽分箱基于数据的范围来划分箱子,每个箱子的宽度相等。
  • 等深分箱基于数据的观测值数量来划分箱子,每个箱子包含相同数量的数据点。

 

 文本编辑相似度度量方法

 

类比直角坐标系中两点距离,理解一下公式。

r 是一个正整数,称为参数或次数。当 r=1 时,明氏距离变为曼哈顿距离;当 r=2 时,它变为欧几里得距离。

曼哈顿距离是 单单每个类型的距离差之和。

X = (-3, -2, -1, 0, 1, 2,3) Y = (9, 4, 1, 0, 1, 4, 9)这个例子pearson的r是0 。

pearson=COV(x,y)/x的标准差*y的标准差。

独热编码将每个标称属性进行扩充,
p将一个颜色标称属性扩充为4个二元属性,分别对应黑、白、蓝、
黄四种取值。对于每一个产品,它在这四个属性上只能有一个取1,
其余三个都为0,所以称为独热编码

最大最小值未知,或者离群点影响较大时 

**

确定程度较高,对应的信息熵也较小。
n 数据点被完全打乱的时候,难以理解其意思,造成不确定性也
就多了,对应的信息熵也变大了。

选择信息增益最大的分隔点

*

既可以降低数据“维数” 又保留了原数据的大部分信息

示例:

如果当某属性两个样例都为0对聚类的影响不大,例如医院体检两个人某种不重要的病毒抗原都是阴性,则不影响分到不同聚类。

这个时候abcd中的d就没啥用了。

通俗理解:jaccard=不一样的个数/(不一样的个数+都为1的个数)

jaccard数值小的越相似。

 误差平方和不再减小

SSE(Sum of Squared Errors,误差平方和)是一种用于衡量聚类质量的指标。SSE计算的是每个数据点到其所属簇的中心的距离的平方之和。

kmeans算法还会受到,离群点,规模,形状,密度影响。

***

邻域:以样本为中心,eps为半径所包括的点

核心点:这个点的圈圈囊括的点的数量达到最小阈值 minpts

边界点:这个点的圈圈所囊括的点的数量未达到最小阈值 minpts,但是被核心点圈住了。

噪声点:既没有被核心点圈住,自己的圈圈里也没有达到最小阈值数量

直接密度可达:单个核心点它圈圈里的点,它可以直接可达的点。

密度可达:例如 A密度可达B (A必须是核心点) 意味着A可通过链接其他核心点最终到达B(B可以是核心点也可以是边界点)。密度可达是非对称的。

密度相连:跟密度可达唯一不同的是 A可以是边界点,即:A可通过链接其他核心点最终到达B

1.遍历数据集中的点,判断是否是核心,如果是创建簇,进行2,如果不是列为噪声点或边界点。

2.把核心点直接密度可达的点加入到簇中

3.循环,直到没有新的点添加到簇中

决策树

B站视频:http://【【数据挖掘】决策树零基础入门教程,手把手教你学决策树!】https://www.bilibili.com/video/BV1T7411b7DG?vd_source=1a684a3a1b9d05485b3d6277aeeb705d

IG(X|Y)表示X在以Y为条件分为两类后,各类的加权熵比原来的熵减少了多少。

   除了用熵来确定最优决策类别,还能用基尼系数来确定t。基尼系数是 1-所分的类别的平方和,一次分类好后要求加权基尼。

然后选择基尼系数最小的划分作为当前的最佳划分。

判断构建的决策树的优劣

判断构建的决策树的优劣

***

当d=1时就为一元线性回归。

=1289 8115

几何中心度

跟它相交的结点/除了自己以外的所有结点

接近中心度

下面的也不全对! 

这里e11要*2

d1

分子in相当于自己社区内的边的和*2   ; tot是自己社区内的边的和*2+外部连接的边

在我的主页里搜索数据科学导论课件,可以获得期末总复习ppt,需要各章节ppt的私我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/327930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

跟着cherno手搓游戏引擎【8】按键和鼠标的KeyCode

自定义KeyCode 先把glfw3.h里的KeyCode的定义抄到咱这里来。 在YOTO下创建KeyCode.h: #pragma once#ifdef YT_PLATFORM_WINDOWS///从glfw3中拿的 #define YT_KEY_SPACE 32 #define YT_KEY_APOSTROPHE 39 /* */ #define YT_KEY_COMMA 44…

Video 不支持微信小程序的show-bottom-progress属性

原文地址:Video 不支持微信小程序的show-bottom-progress属性-鹭娃网络 相关平台 微信小程序 小程序基础库: 2.20.1使用框架: React 复现步骤 import { Video} from tarojs/components; 渲染一个Video播放视频,无法隐藏手机屏幕最底部的进度条&#…

springcloud Alibaba中gateway和sentinel联合使用

看到这个文章相信你有一定的sentinel和gateway基础了吧。 官网的gateway和sentinel联合使用有些过时了,于是有了这个哈哈,给你看看官网的: 才sentinel1.6,现在都几了啊,所以有些过时。 下面开始讲解: 首先…

day02_计算机常识丶第一个程序丶注释丶关键字丶标识符

计算机常识 计算机如何存储数据 计算机世界中只有二进制。那么在计算机中存储和运算的所有数据都要转为二进制。包括数字、字符、图片、声音、视频等。 进制 进制也就是进位计数制,是人为定义的带进位的计数方法 实例: // 在java 中 可以使用不同…

Linux实操学习

Linux常用操作 一、帮助命令1. man1.1 基本语法1.2 快捷键1.3 注意事项 2. help2.1 基本语法2.2 注意事项 3. 常用快捷键 二、文件目录类1. 常规操作1.1 pwd1.2 cd1.3 ls 2. 文件夹操作2.1 mkdir2.2 rmdir 3. 文件操作3.1 touch3.2 cp3.3 rm3.4 mv 4. 文件查看4.1 cat4.2 more4…

【视觉SLAM十四讲学习笔记】第五讲——相机模型

专栏系列文章如下: 【视觉SLAM十四讲学习笔记】第一讲——SLAM介绍 【视觉SLAM十四讲学习笔记】第二讲——初识SLAM 【视觉SLAM十四讲学习笔记】第三讲——旋转矩阵 【视觉SLAM十四讲学习笔记】第三讲——旋转向量和欧拉角 【视觉SLAM十四讲学习笔记】第三讲——四元…

部署本地GPT

在现实生活中,很多公司或个人的资料是不愿意公布在互联网上的,但是我们又要使用人工智能的能力帮我们处理文件、做决策、执行命令那怎么办呢?于是我们构建自己或公司的本地专属GPT变得非常重要。 先看效果: 查资料不用愁 家教不…

CF1178F2 Long Colorful Strip 题解 搜索

Long Colorful Strip 传送门 题面翻译 题目描述 这是 F 题的第二个子任务。F1 和 F2 的区别仅在对于 m m m 和时间的限制上 有 n 1 n1 n1 种颜色标号从 0 0 0 到 n n n,我们有一条全部染成颜色 0 0 0 的长为 m m m 的纸带。 Alice 拿着刷子通过以下的过…

3种ffmpeg-web端视频直播推流方案

ffmpeg-web端视频直播推流方案 记录了三种 ffmpeg 工具进行推流的方法,并在web端实现直播效果。 一. node-media-server ffmpeg 推流rtmp 安装node-media-server依赖,新建app.js运行 npm install node-media-server -g const NodeMediaServer require(node-…

flash-attn库安装记录

flash-attn库安装记录 第一步: 安装好cuda11.7 第二步: 使用代码export CUDA_HOME/usr/local/cuda-11.7让库找到cuda路径 第三步: 使用pip install flash-attn --no-build-isolation安装 安装成功显示

【REMB 】翻译:草案remb-03

REMB REMB消息 以及 绝对时间戳选项 在带宽估计中的使用 :an absolute-value timestamp option for use in bandwidth estimatoin. 接收方带宽估计的RTCP消息 REMB 这位大神翻译的更好。 RTCP message for Receiver Estimated Maximum Bitrate draft-alvestrand-rmcat-remb-03…

图像处理------亮度

from PIL import Imagedef change_brightness(img: Image, level: float) -> Image:"""按照给定的亮度等级&#xff0c;改变图片的亮度"""def brightness(c: int) -> float:return 128 level (c - 128)if not -255.0 < level < 25…

web:ezbypass-cat(白名单目录穿透漏洞、重定向)

题目 进入页面&#xff0c;页面显示如下 随便输入 显示密码错误 查看源代码&#xff0c;没有发现提示 尝试一下sql注入&#xff0c;也没有结果&#xff0c;这里看了大佬的wp&#xff0c;发现是目录穿透 使用bp抓包&#xff0c;网站目录爆破&#xff0c;发现flag.html&#xf…

【51单片机系列】proteus仿真单片机的串口通信

本文参考&#xff1a;https://zhuanlan.zhihu.com/p/425809292。 在proteus之外使用串口软件和单片机通信。通过在proteus设计一个单片机接收PC发送的数据&#xff0c;并将接收的数据发送出去&#xff0c;利用软件【Configure Virtual Serial Port Driver】创建一对虚拟串口&am…

Spring高手之路-Spring事务失效的场景详解

目录 前言 Transactional 应用在非 public 修饰的方法上 同一个类中方法调用&#xff0c;导致Transactional失效 final、static方法 Transactional的用法不对 Transactional 注解属性 propagation 设置不当 Transactional注解属性 rollbackFor 设置错误 用错注解 异常…

rust跟我学:模块编写与使用

图为RUST吉祥物 大家好,我是get_local_info作者带剑书生,这里用一篇文章讲解get_local_info中模块的使用。 首先,先要了解get_local_info是什么? get_local_info是一个获取linux系统信息的rust三方库,并提供一些常用功能,目前版本0.2.4。详细介绍地址:[我的Rust库更新]g…

考研C语言刷题篇之分支循环结构一

目录 第一题 第二题 方法一&#xff1a;要循环两次&#xff0c;一次求阶乘&#xff0c;一次求和。 注意&#xff1a;在求和时&#xff0c;如果不将sum每次求和的初始值置为1&#xff0c;那么求和就会重复。 方法二&#xff1a; 第三题 方法一&#xff1a;用数组遍历的思想…

认识并使用JWT

认识并使用JWT 一、互联网世界的用户认证二、对JWT的基本认知三、JWT的原理1 Header2 Payload3 Signature4 [参考资料](https://www.ruanyifeng.com/blog/2018/07/json_web_token-tutorial.html) 四、使用JWT1、引入依赖2、jwt的生成与解析3、测试3.1 生成jwt3.2 解析jwt 一、互…

探索单元测试和 E2E 测试:提升软件质量的关键步骤(下)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

驾驭车联网的力量:深入车联网网络架构

车联网&#xff0c;作为移动互联网之后的新风口&#xff0c;以网联思想重新定义汽车&#xff0c;将其从简单的出行工具演化为个人的第二空间。车联网涵盖智能座舱和自动驾驶两大方向&#xff0c;构建在网联基础上&#xff0c;犀思云多年深度赋能汽车行业&#xff0c;本文将从车…