Pandas的datetime数据类型

Python的datetime对象

Python内置了datetime对象,可以在datetime库中找到

from datetime import datetime
now = datetime.now()
now

还可以手动创建datetime

t2 = datetime(2023,4,21)
now-t2
#
datetime.timedelta(days=251, seconds=31427, microseconds=546921)

将pandas中的数据转换成datetime

1.to_datetime函数

Timestamp是pandas用来替换python datetime.datetime的 可以使用to_datetime函数把数据转换成Timestamp类型

import pandas as pd
ebola = pd.read_csv(r'C:\Users\Administrator\Documents\WeChat Files\wxid_mgaxcaeufcpq22\FileStorage\File\2023-12\country_timeseries.csv')
ebola.iloc[:5,:5]

从数据中看出 Date列是日期,但通过info查看加载后数据为object类型
某些场景下, (比如从csv文件中加载进来的数据), 日期时间的数据会被加载成object类型, 此时需要手动的把这个字段转换成日期时间类型
可以通过to_datetime方法把Date列转换为Timestamp,然后创建新列

ebola['date_dt'] = pd.to_datetime(ebola['Date'])
ebola.info()

# 
18  date_dt              122 non-null    datetime64[ns]

2.通过Timestamp创建

d=pd.Timestamp(2023,12,28)
d

# Timestamp('2023-12-28 00:00:00')

3 .通过parse_dates参数指定 

ebola = pd.read_csv('data/country_timeseries.csv',parse_dates=[0])
ebola.info()
# Date列转换为datetime类型

提取日期的各个部分

d = pd.to_datetime('2023-04-20’)

# 可以看到得到的数据是Timestamp类型,通过Timestamp可以获取年,月,日等部分
d.year
d.month
d.day

日期运算和Timedelta

Ebola数据集中的Day列表示一个国家爆发Ebola疫情的天数。这一列数据可以通过日期运算重建该列 疫情爆发的第一天(数据集中最早的一天)是2014-03-22。

计算疫情爆发的天数时,只需要用每个日期减去这个日期即可

获取疫情爆发的第一天 
ebola['Date'].min() 
添加新列 
ebola['outbreak_d'] = ebola['Date']-ebola['Date'].min()
查看数据 
ebola[['Date','Day','outbreak_d']].head() ebola[['Date','Day','outbreak_d']].tail()
banks['倒闭的季度'] = banks['Closing Date'].dt.quarter
banks['倒闭的年份'] = banks['Closing Date'].dt.year

.dt.quarter和.dt.year可以获取当前日期的季度和年份

# 类似于这个方法
d=pd.Timestamp(2023,12,30)
d.weekday()

closing_year = banks.groupby(['倒闭的年份'])['Bank Name'].count()
closing_year

# 
2000,2
2001,4
2002,11
2003,3
2004,4
2007,3
2008,25
2009,140
2010,157
2011,92

基于日期数获取数据子集

先将第一列数据处理为datetime类型

tesla = pd.read_csv(r'C:\Users\Administrator\Documents\WeChat Files\wxid_mgaxcaeufcpq22\FileStorage\File\2023-12\TSLA.csv',parse_dates=[0])
tesla.info()
tesla.loc[(tesla.Date.dt.year==2015) & (tesla.Date.dt.month == 8)]

将索引设为Date 列,然后可以查询2015年8月的所有数据

tesla.set_index('Date',inplace=True)
tesla['2015-08']    
tesla['ref_date'] = tesla['Date']-tesla['Date'].min()
tesla.set_index('ref_date',inplace=True)
tesla.loc['1000 days']

 

 日期范围

使用date_range函数来创建连续的日期范围

head_range = pd.date_range(start='2014-12-31',end='2015-01-05')
head_range  # 使用date_range函数创建日期序列时,可以传入一个参数freq,默认情况下freq取值为D,表示日期范围内的值是逐日递增的

# 
DatetimeIndex(['2014-12-31', '2015-01-01', '2015-01-02', '2015-01-03',
               '2015-01-04', '2015-01-05'],
              dtype='datetime64[ns]', freq='D')

包含日期的数据集中,并非每一个都包含固定频率。比如在Ebola数据集中,日期并没有规律 ebola.iloc[:,:5]

从上面的数据中可以看到,缺少2015年1月1日,2014年3月23日,如果想让日期连续,可以创建一个日期范围来为数据集重建索引。

在freq传入参数的基础上,可以做一些调整
# 隔一个工作日取一个工作日
pd.date_range('2023-01-01','2023-01-07',freq='2B’)
freq传入的参数可以传入多个
#2023年每个月的第一个星期四
pd.date_range('2023-01-01','2023-12-31',freq='WOM-1THU’)
#每个月的第三个星期五
pd.date_range('2023-01-01','2023-12-31',freq='WOM-3FRI')

 datetime类型案例

加载数据
crime = pd.read_csv('data/crime.csv',parse_dates=['REPORTED_DATE’])
查看数据
crime.info()
设置报警时间为索引
crime = crime.set_index('REPORTED_DATE')
crime.head()
crime.loc['2016-05-12’]
查看某一段时间的犯罪记录
crime.loc['2015-3-4':'2016-1-1'].sort_index()
时间段可以包括小时分钟
crime.loc['2015-3-4 22':'2016-1-1 23:45:00'].sort_index()查询凌晨两点到五点的报警记录
crime.between_time('2:00', '5:00', include_end=False)
查看发生在某个时刻的犯罪记录
crime.at_time('5:47’)
在按时间段选取数据时,可以将时间索引排序,排序之后再选取效率更高
crime_sort = crime.sort_index()
%timeit crime.loc['2015-3-4':'2016-1-1’]
%timeit crime_sort.loc['2015-3-4':'2016-1-1’]

(%timeit是ipython的魔术函数,可用于计时特定代码段)

总结:

Pandas中,datetime64用来表示时间序列类型

时间序列类型的数据可以作为行索引,对应的数据类型是DatetimeIndex类型

datetime64类型可以做差,返回的是Timedelta类型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/274642.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C# WPF上位机开发(MVVM模式开发)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 学习过vue的同学都知道mvvm这个名词。从字面上理解,可能有点拗口,但是我们可以去理解一下它的优点是什么。mvc相信大家都明…

生产系统稳定上线600天!中国联通CUDB for OceanBase的开源共建和规模化应用

中国联通软件研究院架构部平台承载了上千应用的数据库需求,并且现存大量数据库使用过程缺少规范、缺少监控,同时还存在着数据库核心技术相关风险。为了实现核心技术自主可控,及时为用户解决线上问题、满足用户的功能需求,提供物美…

GIT提交、回滚等基本操作记录

1、add文件时warning: LF will be replaced by CRLF in .idea/workspace.xml. 原因:windows中的换行符为 CRLF, 而在Linux下的换行符为LF,所以在执行add . 时会出现以下提示 解决:git config core.autocrlf false 2、GIT命令&…

【数据库系统概论】第4章-数据库安全性

复习用,别看了 文章目录 4.1 计算机安全性概述4.2 数据库安全性控制4.2.1 用户标识和鉴定4.2.2 存取控制4.2.3 自主存取控制方法4.2.4 数据库角色4.2.5 强制存取控制 4.3 视图机制4.4 审计4.5 数据加密4.6 其他安全性保护 4.1 计算机安全性概述 不安全因素 4.2 …

gin框架使用系列之五——表单校验

系列目录 《gin框架使用系列之一——快速启动和url分组》《gin框架使用系列之二——uri占位符和占位符变量的获取》《gin框架使用系列之三——获取表单数据》《gin框架使用系列之四——json和protobuf的渲染》 一 、表单验证的基本理论 在第三篇中,我们介绍了如何…

linux系统 CentOS Tomcat 部署论坛

jdk安装命令:yum -y install java-1.8.0-openjdk-devel.x86_64 结尾上显示下图为成功 检查jdk环境是否配置成功命令:java -version或javac 显示版本 显示信息 mysql安装: 检查是否存mariadb数据库:rpm -qa | grep mariad 卸载ma…

Elasticsearch中复制一个索引数据到新的索引中

问题 我有时候,需要调试一个已经存在的ES索引,需要从已有的索引复制数据到新的索引中去。 解决 这里我借助一个GUI工具,来解决这个问题,底层它是使用Reindex的API实现索引数据复制的。利用Reindex API搞不定这个事情&#xff0…

【MATLAB】PSO粒子群优化BiLSTM(PSO_BiLSTM)的时间序列预测

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 基于PSO粒子群优化的BiLSTM的时间序列预测算法的基本原理如下: 「双向长短时记忆(BiLSTM)模型」:这是一种深度学习模型,特别适用…

C#编程艺术:Fizzler库助您高效爬取www.twitter.com音频

数据是当今数字时代的核心资源,但是从互联网上抓取数据并不容易。本文将教您如何利用C#编程艺术和Fizzler库高效爬取Twitter上的音频数据,让您轻松获取所需信息。 Twitter简介 Twitter是全球最大的社交媒体平台之一,包含丰富的音频资源。用…

【TensorFlow 精简版】TensorFlow Lite

目录 一 TensorFlow Lite简介 二 开发 三 开始使用 一 TensorFlow Lite简介 TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 loT 设备上运行模型,以便实现设备端机器学习。 针对设备端的机器学习进行的优化: ① 延时&…

WPF+Halcon 培训项目实战(1-5):Halcon安装,图像处理,Halcon简单模板匹配

文章目录 前言相关链接项目专栏我个人对就业市场的评价Halcon安装实战1-4:Halcon基础实战5:模板匹配[形状匹配]实战代码 结尾 前言 为了更好地去学习WPFHalcon,我决定去报个班学一下。原因无非是想换个工作。相关的教学视频来源于下方的Up主…

C++构建简单静态库实例(cmakelist)

一、开发实例 通过cmake构建静态开发实例如下: 1.1 代码目录 代码目录结构如下: 1.2 代码内容 1.2.1 CMakeLists.txt # CMake 最低版本要求 cmake_minimum_required(VERSION 3.10)# 项目名称 project(mylib)# 添加源文件 set(SOURCE_FILESsrc/mylib

连接progressql报错Cannot load JDBC driver class ‘org.postgresql.Driver‘,亲测有效!!!

Jmeter连接progressql报错Cannot load JDBC driver class ‘org.postgresql.Driver’ 1.到官方下载驱动注意:根据项目的JDK版本来下载对应的驱动Download | pgJDBC 2.将postgresql-42.2.27.jar复制到lib目录下面, 然后重新启动 连接driver信息如下&#…

mapboxgl 中热力图的实现以及给热力图点增加鼠标移上 popup 效果

文章目录 概要效果预览技术思路技术细节小结 概要 本篇文章还是关于最近做到的 mapboxgl 地图展开的。 借鉴官方示例:https://iclient.supermap.io/examples/mapboxgl/editor.html#heatMapLayer 效果预览 技术思路 将接口数据渲染到地图中形成热力图。还需要将热…

采集京东网数据的10个经典方法

采集京东电商网数据的10个经典方法 京东网数据采集全网抓取网页数据、商品销量、全网搜索、网页爬虫、采集网站数据、网页数据采集软件、python爬虫、HTM网页提取、APP数据抓包、APP数据采集、一站式网站采集技术、BI数据的数据分析、数据标注等成为大数据发展中的热门技术关键…

反序列化漏洞分析

接着昨天的来说,由于fastjson调试起来过程比较复杂,在这里直接看关键点:首先会获取字符串的第一对引号中的内容 如果内容为type就会加载下一对引号中的类 在JavaBeanInfo.class中会获取类中所有详细详细 在这里匹配以set开头的方法 methodNam…

[C/C++]排序算法 快速排序 (递归与非递归)

目录 🚩概念: 🚩实现: ⚡1.hoare ⚡2.挖坑法 ⚡3.双指针法 🚩快速排序递归实现 🚩快速排序非递归实现 🚩概念: 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据比另一部分的所有…

Spring中常见的BeanFactory后处理器

常见的BeanFacatory后处理器 先给出没有添加任何BeanFactory后处理器的测试代码 public class TestBeanFactoryPostProcessor {public static void main(String[] args) {GenericApplicationContext context new GenericApplicationContext();context.registerBean("co…

判断电话号码是否重复-excel

有时候重复的数据不需要或者很烦人,就需要采取措施,希望以下的方法能帮到你。 1.判断是否重复 方法一: 1)针对第一个单元格输入等号,以及公式countif(查找记录数的范围,需要查找的单元格) 2…

node.js express框架开发入门教程

文章目录 前言一、Express 生成器(express-generator)二、快速安装1.express框架express-generator生成器安装2.使用pug视图引擎创建项目,projectName 为项目名称自定义 三、安装热更新插件 nodemon四、目录结构1. public文件夹2.routes路由其他请求方式…