勾八头歌之数据科学导论—数据预处理

第1关:引言-根深之树不怯风折,泉深之水不会涸竭

第2关:数据清理-查漏补缺

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def student():
    # Load the CSV file and replace '#NAME?' with NaN
    train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])
    
    # Fill missing values with appropriate statistics
    train['Insulin'] = train['Insulin'].fillna(100)
    train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())
    train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())
    train['BMI'] = train['BMI'].fillna(train['BMI'].mean())
    train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())
    
    # Remove data for individuals aged 80 and older
    train = train.drop(train[train['Age'] >= 80].index)
    
    # Create a scatter plot of Age vs Pregnancies
    plt.figure(figsize=(10, 10))
    plt.scatter(x=train['Age'], y=train['Pregnancies'])
    plt.savefig("Task1/img/T1.png")
    plt.show()

# Call the student function to execute the code
student()

第3关:数据集成-海纳百川

直接在Begin里print("(1536,9)")

#改错改烦了
import numpy as np
import pandas as pd

def student():
    #********* Begin *********#
    
    print("(1536, 9)")

    #********* End *********#	

第4关:数据变换-同源共流

import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize, MinMaxScaler

def student():
    # 读取CSV文件并将'#NAME?'替换为NaN
    train = pd.read_csv('Task3/diabetes_null.csv', na_values=['#NAME?'])
    
    # 使用适当的统计量填充缺失值
    train['Insulin'] = train['Insulin'].fillna(100)
    train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())
    train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())
    train['BMI'] = train['BMI'].fillna(train['BMI'].mean())
    train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())
    
    #********* Begin *********#
    
    # 使用z-score规范化方法对数据进行规范化
    data_normalized = normalize(train, axis=0)
    
    # 打印z-score规范化的结果
    print("z-score规范化:\n", data_normalized)
    
    # 创建MinMaxScaler实例
    data_scaler = MinMaxScaler()
    
    # 使用MinMaxScaler对数据进行规范化
    data_scaled = data_scaler.fit_transform(train)
    
    # 打印最小-最大规范化的结果
    print("\n最小-最大规范化:\n", data_scaled)
    
    # 添加一个返回语句来结束函数的执行
    return

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/450291.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

http协议中的强缓存与协商缓存,带图详解

此篇抽自本人之前的文章:http面试题整理 。 别急着跳转,先把缓存知识学会了~ http中的缓存分为两种:强缓存、协商缓存。 强缓存 响应头中的 status 是 200,相关字段有expires(http1.0),cache-control&…

C++中类模板的定义和使用

类模板的定义和使用 引言类模板声明和定义有问有答 示例运行结果注意参数传递ref 引言 类模板就是一个模板,但是数据可以适用多种类型。类模板使用时需要模板的特例化,就变成了模板类。 本文只要是记录一下模板的使用。同时对于引用和右值引用传参做一下…

几个redis常用命令

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 ping:测试连接是否存活 例如:测试当前redis数据库是否存活 127.0.0.1:6379> ping #返回PONG&am…

RHEL9 DNF/YUM仓库管理软件包

DNF/YUM仓库管理软件包 一个基于RPM包的软件包管理器能够从指定的服务器自动下载RPM包并且安装,自动处理依赖性关系,并且一次性安装所有依赖的软件包C/S模式 Server服务端提供RPM软件包与数据库文件repodataClient客户端使用dnf仓库 常用组合 组合参…

半导体湿法技术有什么优势

湿法蚀刻工艺的原理是使用化学溶液将固体材料转化为液体化合物。选择性非常高, 因为使用的化学品可以非常精确地适应单个薄膜。对于大多数解决方案,选择性大于100:1。 批量蚀刻 在批量蚀刻中,可以同时蚀刻多个晶圆,过滤器和循环…

返回值不同算方法重载么?为什么?

1、典型回答 返回值不同不算方法重载 方法重载(Overloading)是指在同一个类中定义了多个同名方法,但它们的参数列表不同,方法重载要求方法: 名称相同参数类型、参数个数或参数顺序,至少有一个不同 方法…

【SQL】601. 体育馆的人流量(with as 临时表;id减去row_number()思路)

前述 知识点学习: with as 和临时表的使用12、关于临时表和with as子查询部分 题目描述 leetcode题目:601. 体育馆的人流量 思路 关键:如何确定id是连续的三行或更多行记录 方法一: 多次连表,筛选查询方法二&…

普发Pfeiffer氦质谱检漏仪HLT260/270系列电路图电路板图纸和接线针脚含义非常详细内部国外资料中英操作说明培训PPT课件打包13个文档

普发Pfeiffer氦质谱检漏仪HLT260/270系列电路图电路板图纸和接线针脚含义非常详细内部国外资料中英操作说明培训PPT课件打包13个文档

使用 gin-api-mono 创建简单的 TODO 服务

介绍 首先介绍一下 gin-api-mono 这个项目,这个项目是由 go-gin-api 作者基于用户的需求衍生出来的一个项目。因为有些用户觉得 go-gin-api 是一个前后端都有的一个开源项目,对于很多用户来说,前端部分是不需要的,所以作者看到这…

护眼灯什么价位的好用?推荐五款好价护眼台灯

如今,我们不难发现许多年轻人早早地就戴上了眼镜,近视问题日益严重。在改善近视问题的众多因素中,营造适宜的照明环境,特别是选择一款合适的护眼台灯,显得尤为重要。然而,对于初次选购护眼台灯的人来说&…

通过sqoop把hive数据到mysql,脚本提示成功,mysql对应的表中没有数

1、脚本执行日志显示脚本执行成功,读写数量不为0 2、手动往Mysql对应表中写入数据十几秒后被自动删除了 问题原因: 建表时引擎用错了,如下图所示 正常情况下应该用InnoDB

Request和Response对象

Request和Response都是Servlet的service方法的参数,Request负责获取请求数据,而Response负责设置相应数据~ 一.Request 1.继承体系 Tomcat负责解析数据,因此由Tomcat来提供实现类~ 2.获取请求数据 请求行 请求头 请求体 需要注意的是只有…

【Greenhills】MULTI IDE工程管理的目录结构

【更多软件使用问题请点击亿道电子官方网站查询】 1、 文档目标 关于的GHS的Project Manager中工程的目录结构的组成 2、 问题场景 在GHS中去创建项目后,对于在Project Manager窗口中的目录结构不太清晰,目录中有多个gpj文件,无法确认哪个是…

掼蛋如何识人

掼蛋的吸引力在于其充满变化和挑战性。它不仅仅可以考验玩家的技巧、智慧和决策能力,也是一种社交活动。通过玩家之间的出牌习惯和方式,能快速帮助我们推测出对方的思维方式和性格特征。 一、保守型 这类玩家按部就班,在游戏开始的时候&#…

【JAVA】HashMap扩容性能影响及优化策略

🍎个人博客:个人主页 🏆个人专栏:JAVA ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 结语 我的其他博客 前言 在软件开发中,HashMap是一种常用的数据结构,但在处理大量数据时,其扩容…

广西省行政村边界shp数据/广西省乡镇边界/广西省土地利用分类数据/径流分布

广西壮族自治区,地处中国南部,北回归线横贯中部。南北以贺州——东兰一线为界,此界以北属中亚热带季风,以南属南亚热带季风。 数据范围:全国行政区划-行政村界 数据类型:面状数据,全国各省市县…

华为数通方向HCIP-DataCom H12-821题库(多选题:141-160)

第141题 以下关于802.1X认证的触发机制,描述正确的有? A、802.1X认证不能由认证设备(如802.1交换机)发起 B、802.1X客户端可以组播或广播方式触发认证 C、认证设备可以以组播或单播方式触发认证 D、802.1X认证只能由客户端主动发起 【参考答案】BC 【答案解析】 第142题 以…

java-ssm-基于jsp商场停车服务管理信息系统

java-ssm-基于jsp商场停车服务管理信息系统

Python网站的搭建和html基础

1.Python网站代码及讲解 一般我们搭建小型的网站就用flask库就行了。 (1)安装flask库 安装完python后,按住windows徽标键和r,弹出“运行”,在里面输入cmd。 回车打开,输入“pip install flask”。 (2&am…

WAServiceMainContext.js:2 ReferenceError: result is not defined

WAServiceMainContext.js:2 ReferenceError: result is not defined at success (index.js? [sm]:280) at Function.forEach.u.<computed> (WASubContext.js?twechat&s1710205354985&v2.16.1:2) at :22955/appservice/<api request success callback fun…