Python高效数据分析的综合复习指南【时间处理与机器学习】

五、时间处理

一、时间戳-----Timestamp类型

方法1:使用Timestamp创建

pandas.Timestamp(ts_input, freq=None, tz=None, unit=None, year=None, month=None, day=None, hour=None, minute=None, second=None, microsecond=None, tzinfo=None, offset=None)

import pandas as pd
ts1=pd.Timestamp('2023/4/19')
ts2=pd.Timestamp('20230419')
ts3=pd.Timestamp('2023-4-19')
print(ts1,ts2,ts3)#2023-04-19 00:00:00 2023-04-19 00:00:00 2023-04-19 00:00:00

方法2:使用to_datetime函数

pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix')

参数说明:

arg:需要转换的时间和日期

errors:值为ignore(无效的解析将返回原值),值为raise(无效的解析将引发异常),值为coerce(无效的解析将被置为NaT)

dayfirst:第一个为天,例如:23/11/2022,置为True:解析为 2022-11-23,置为False:解析为 2022-23-11

date_range()方法,用于生成一个固定频率的DatetimeIndex时间索引。

pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)

常用参数为start、end、periods、freq。

start:指定生成时间序列的开始时间

end:指定生成时间序列的结束时间

periods:指定生成时间序列的数量

freq:生成频率,默认‘D’,可以是‘D’(天)、‘10D’、’H’(时)、‘5H’、‘T’(分)、‘S’(秒)、‘15T’、‘M’(月)

重采样(Resample方法)

Resample()方法: resample能搭配各种不同时间维度,进行分组聚合。针对分组情况你可以搭配使用max、min、sum、mean等使用

resample(rule, how=None, axis=0, fill_method=N one, closed=None, label=None, ..

To_period()方法可以将时间戳转换为日期,从而实现按照日期显示数据

示例 1:将时间序列数据进行降采样为3分钟间隔,对每个区间内的数值求和。

示例2:将时间序列数据进行上采样为30秒间隔,利用ffill和bfill填充

降采样:将高频率转换为低频率,使用聚合函数 升采样:将低频率转为高频率,会引入缺失值。

滑动窗口rolling函数

根据指定的单位长度来框住时间序列,从而计算框内的统计指标

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

六、机器学习

机器学习就是通过算法,使得机器能从大量历史数据中学习规律,并利用规律对新的样本做智能识别或对未来做预测。

机器学习的分类

1.按学习目标的不同,机器学习可分为:

监督学习(Supervised Learning)---有标签

无监督学习(Unsupervised Learning) ---无标签

半监督学习(Semi-Supervised Learning) ---有部分标签

强化学习(Reinforcement Learning, RL) ---有延迟的标签

2. 根据训练数据是否有标注,机器学习可划分为:

监督学习

无监督学习

1.监督学习

监督式学习需要使用有输入和预期输出标记的数据集。

监督学习的目的是通过学习许多有标签的样本,然后对新的数据做出预测。

监督学习又可分为“分类”“回归”问题。

(1)分类问题

在分类问题中,机器学习的目标是对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数值

(2)回归问题 在回归问题中,其目标是预测一个连续的数值或者是范围

数据集的划分

把数据分割成训练集(我们从中学习数据的属性)和测试集(我们测试这些性质)

训练集(Training set):用来拟合模型,通过设置分类器的参数,训练分类模型。

测试集(Test set):通过训练,得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集视为从来不存在的数据集,当已经确定模型后,使用测试集进行模型性能评价。

Scikit-learn提供了train_test_split函数来帮助完成这一任务,train_test_split在model_selection模块下

聚类算法实现需要使用sklearn估计器(estimator)。

sklearn估计器拥有fit()和predict()两个方法,其说明如下表所示

K-means算法

(1)参数k的选取方法

k-means算法需要事先确定簇的数量,也即,参数k。过大或过小的k值均不能获得高质量的聚类结果。

(2)初始质心的选择问题

(3)K-means的方法实现

model = KMeans (n_clusters = 4)

KNN算法

K最近邻算法原理:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分类到这个类中。

流程:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的k个点;

(4)确定前k个点所在类别的出现频率;

(5)返回前k个点所出现频率最高的类别作为当前点的预测分类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/641888.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信好友这样打标签更高效!

为什么要做标签管理? ① 通过标签管理,可以清晰的知道每个私域好友的关系程度,如哪些是忠诚客户,哪些是意向客户,哪些是刚加上的客户等等。 这样就知道下一步要怎么操作,做到精细化运营。如忠诚客户跟进维护&#x…

子分支想主分支发起合并请求

请求合并 1.点击 git Web 页右上角打开 Merge requests 进入新页,点击右上角。注意选择要合并的项目 2.左边是源分支,右边是要合并的目标分支。 3.最后点击左下角绿色按钮 4.第一个红框 Assignee,选择要通知去合并的人。第二个红框不动&#…

qt5core.dll怎么下载,qt5core.dll下载安装详细教程

不知道大家有没有遇到过qt5core.dll丢失这个问题?目前这个问题还是比较常见的,一般使用电脑比较多的的人,有很大几率遇到这种qt5core.dll丢失的问题。今天主要针对这个问题,来给大家讲解一下一键修复qt5core.dll的方法。 Qt5Core.…

基于FPGA的函数信号发生器设计

本科时期的一个课设,现在将他分享出来,写了很详细的文章,可以直接拿去使用:设计采用波形查找表和相位累加器的方法实现DDS,查找表的数据位宽为8位,采样点数为4096。波形产生范围是100Hz-20MHz,最…

前端 CSS 经典:SVG 描边动画

1. 原理 使用 css 中的 stroke 属性,用来描述描边的样式,其中重要的属性 stroke-dasharray、stroke-dashoffset。理解了这两个属性的原理,才能理解描边动画实现的原理。 stroke-dasharray:将描边线变成虚线、其中实线和虚线部分…

年轻人逆转生活方式,胰岛功能关键在于饮食与运动的配合!

平常在生活方面,控制好饮食和运动,但是有的年轻人,比如说工作原因,或者是个人喜好等原因,可能饮食他配合不了,这样逆转起来也很困难。 有一个例子,就是那种公交车司机,他的排班就是夜…

C++容器之无序多集(std::unordered_multiset)

目录 1 概述2 使用实例3 接口使用3.1 construct3.2 assigns3.3 iterators3.4 capacity3.5 find3.6 count3.7 equal_range3.8 emplace3.9 emplace_hint3.10 insert3.11 erase3.12 clear3.13 swap3.14 bucket_count3.15 max_bucket_count3.16 bucket_size3.17 bucket3.18 load_fa…

【正点原子Linux连载】 第四十七章 音频驱动实验摘自【正点原子】ATK-DLRK3568嵌入式Linux驱动开发指南

1)实验平台:正点原子ATK-DLRK3568开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id731866264428 3)全套实验源码手册视频下载地址: http://www.openedv.com/docs/boards/xiaoxitongban 第四十…

llama3-8b-instruct-262k微调过程的问题笔记(场景为llama论文审稿)

目录 一、环境配置 1.1、模型 1.2、微调环境 1.3、微调数据 二、发现的问题 2.1、过拟合问题 2.2、Qlora zero3 保存模型时OOM问题(已解决) 一、环境配置 1.1、模型 llama3-8b-instruct-262k (英文) 1.2、微调环境 Package Version ------------------…

安全态势管理的六大挑战:态势感知

德迅云安全鉴于如今的安全威胁不断变幻,企业对实施态势管理策略至关重要,可以让安全团队根据需要进行安全策略的动态调整。如果企业在研究构建态势感知管理,需要特别关注以下六个方面的挑战。 如果企业正在使用一个或多个平台,那么…

stm32常用编写C语言基础知识,条件编译,结构体等

位操作 宏定义#define 带参数的宏定义 条件编译 下面是头文件中常见的编译语句,其中_LED_H可以认为是一个编译段的名字。 下面代码表示满足某个条件,进行包含头文件的编译,SYSTEM_SUPPORT_OS可能是条件,当非0时,可以…

小程序-购物车-基于SKU电商规格组件实现

SKU 概念: 存货单位( Stock Keeping Unit ), 库存 管理的最小可用单元,通常称为“单品”。 SKU 常见于电商领域,对于前端工程师而言,更多关注 SKU 算法 ,基于后端的 SKU 数据…

总结 HTTPS 的加密流程

一、前言 http是为了解决http存在的问题而在http基础上加入了SSL/TSL,在HTTP/2中TCP三次握手后会进入SSL/TSL握手,当SSL/TSL建立链接后,才会进行报文的传输。 二、HTTPS的混合加密 我们先来认识密钥: 密钥是用于加密和解密数据…

VMware安装保姆教程、Docker安装/依赖安装缓慢等问题

常见问题前置: 1、docker依赖安装缓慢,没有走设置的资源库:解决安装docker-ce过慢 Operation too slow. Less than 1000 bytes/sec transferred the last 30 seconds‘) 在添加阿里云镜像后安装依旧慢: yum-config-manager --add-repo http://mirrors.aliyun.com/docker…

JavaSE--基础语法(第一期)

Java是一种优秀的程序设计语言,它具有令人赏心悦目的语法和易于理解的语义。不仅如此,Java还是一个有一系列计算机软件和规范形成的技术体系,这个技术体系提供了完整的用于软件开发和 跨平台部署的支持环境,并广泛应用于嵌入式系统…

鸿蒙HarmonyOS开发:tabs结合tabContent实现底部tabBar导航栏页面布局

文章目录 一、组件介绍1、Tabs参数属性事件TabsController 2、子组件属性说明 二、基础示例1、基础顶部导航2、效果3、可以滚动导航栏2、效果 三、扩展示例自定义导航栏1、代码2、效果 一、组件介绍 Tabs组件的页面组成包含两个部分,分别是TabContent和TabBar。Tab…

宝塔面板修改端口后无法登入

今天通过宝塔面板登录腾讯云主机,看到下面的提醒,顺便点进去随便改了个端口 本以为改端口是很简单事情,结果我改完之后面板立马登不上了,接下来我改了登录地址和端口也不行,我以为是防火墙的问题,增加了防火…

告别登录烦恼,WPS免登录修改器体验!(如何实现不登录使用WPS)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 解决方案 📒🎈 获取方式 🎈⚓️ 相关链接 ⚓️ 📖 介绍 📖 想象一下,如果你能够绕过繁琐的登录流程&#x…

微信小程序--微信开发者工具使用小技巧(3)

一、微信开发者工具使用小技巧 1、快速创建小程序页面 在app.json中的pages配置项,把需要创建的页面填写上去 2、快捷键使用 进入方式 1: 文件–>首选项–> keyboard shortcuts 进入快捷键查看与设置 进入方式 2: 设置–>快捷键…

Tower在深度学习中的概念,tower没有确切定义

在论文UniTS中,来自Havard的工作。 tower更像是针对一个task的组件 tower这个概念貌似在REC(recommendation)推荐系统中使用较多 deep learning - What is a tower? - Data Science Stack Exchange https://developers.google.com/machin…