R语言——reshape2包、tidyr包、dplyr包(五)

目录

一、数据转换之reshape2包:melt与dcast函数

二、数据转换之tidyr包:gather与spread函数,separate与unite函数

三、据转换之dplyr包

四、参考


一、数据转换之reshape2包:melt与dcast函数

merge 函数 

使用merge函数
x <- data.frame(k1=c(NA,NA,3,4,5),k2=c(1,NA,NA,4,5),data=1:5)
y <- data.frame(k1=c(NA,2,NA,4,5),k2=c(NA,NA,3,4,5),data=1:5)

【使用 cbind 或 rbind 无法区分哪部分来自 x , 哪部分来自 y 。】
merge(x,y,by)合并函数:by表示根据x和y中的某一列进行合并。如:
merge(x,y,by=c(“k1”,“k2”))

reshape2 包 

安装reshape2包:install.packages('reashape2')

加载reshape2包:library(reshape2)
(使用R中的airquality数据集做演示)
names(airquality) <- tolower(names(airquality))     


aql <- melt(airquality,id.vars = c(“month”,“day”))      #将数据中的month和day作为id信息,宽数据变长数据。


aqw <- dcast(aql,month~variable,fun.aggregate=sum,na.rm=TRUE)      #长数据变宽数据。

这里的~表示相关联,说明二者有关系,但不一定是相等;fun.aggregate表示给定一个函数指定如何重塑数据;na.rm表示移除na数据。

二、数据转换之tidyr包:gather与spread函数,separate与unite函数

安装tidyr包

tdata <- mtcars[1:10,1:3]
tdata <- data.frame(names=rownames(tdata),tdata)
gather(tdata,key=“Key”,value=“Value”,cyl,disp,mpg)      #宽数据变长数据,类似于melt,tdata是数据框,key为标签,value为对应值。


gather(tdata,key=“Key”,value=“Value”,cyl,-disp)      #disp单独放到一列中


gdata <- gather(tdata,key=“Key”,value=“Value”,2:4)      #这里的2:4等于cyl,disp,mpg(或者cyl:mpg)

spread(gdata,key=“Key”,value=“Value”)      #spread函数与gather函数作用相反,它是将长数据变为宽数据

df <- data.frame(x=c(NA,'a.b','a.d','b.c'))
separate(df,col=x,into=c('A','B'))       #将df数据框中的x列,分割为A、B两列,默认识别分隔符为“.”


df <- data.frame(x=c(NA,'a.b-c','a-d','b-c'))
sepa <- separate(df,col=x,into=c('A','B'),sep="-")       #将df数据框中的x列,分割为A、B两列,分隔符为“-”

unite(sepa,col='AB',A,B,sep="-")      #unite函数与separate函数作用相反,将sepa中的A和B列,用连接符“-”连接,组成列AB

三、据转换之dplyr包

dplyr包不仅可以对单个表格进行操作,也可以对双表格进行操作。 功能强大,函数很多。

对单表格的操作

1)dplyr::filter(iris,Sepal.Length>7)      #过滤函数。函数前面加上“包名::”是为了防止dplyr包中的函数名与其他函数产生冲突

dplyr::distinct(rbind(iris[1:10, ] , iris[1:15, ]))      #去除重复

dplyr::slice(iris,10:15)      #slice是切片的意思,可以用于取出数据任意行

dplyr::sample_n(iris,10)      #随机取样10行

dplyr::sample_frac(iris,0.1)      #按比例随机取样

dplyr::arrange(iris,Sepal.Length)      #按照iris中的花萼长度Sepal.Length进行排序
dplyr::arrange(iris,desc(Sepal.Length))      #降序

select函数:dplyr包中的数据框取子集功能,比R自带的subset函数更加强大。

dplyr::mutate(iris,new=Sepal.Length+Petal.Length)      #添加新的变量new,其值是Sepal.Length+Petal.Length

2)dplyr包的统计函数
summarise函数:
summarise(iris,avg=mean(Sepal.Length))
summarise(iris,sum=sum(Sepal.Length))

dplyr::group_by(iris,Species)      #根据Species对iris进行分组  

3)链式操作符%>%
两个百分号中间夹着一个大于号,称为链式操作符,它的功能是用于实现将一个函数的输出传递给下一个函数,作为下一个函数的输入。在RStudio中可以使用ctrl+shift+M快捷键输出来。
如:head(mtcars,20) %>% tail(10)      #输出mtcars中的第10到20行

iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Width)) %>% arrange(avg)       #对iris数据集先进行分组,再求平均,最后排序

 对双表格的操作

a <- data.frame(x1=c('A','B','C'),x2=c(1,2,3))
b <- data.frame(x1=c('A','B','D'),x3=c(T,F,T))


1)左连接
dplyr::left_join(a,b,by=“x1”)

2)右连接
dplyr::right_join(a,b,by=“x1”)

3)内连接:取x1的交集
dplyr::inner_join(a,b,by=“x1”)


4)全连接:取x1的并集

5)半连接:a与b的交集,把b中有的a中没有的去掉
dplyr::semi_join(a,b,by=“x1”)

6)反连接:a与b的补集,保留a中有而b中没有的观测
dplyr::anti_join(a,b,by=“x1”)

数据集的合并:
mtcars <- mutate(mtcars,Model=rownames(mtcars))
first <- slice(mtcars,1:20)
second <- slice(mtcars,10:30)
1)取数据集交集:intersect(first,second)
2)取数据集并集:dplyr::union_all(first,second)
3)取非冗余的数据集并集:
dplyr::union(first,second)
4)取first的补集:setdiff(first,second)

四、参考

R语言入门与数据分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/286776.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日一练:LeeCode-739. 每日温度(中)【单调栈】

本文是力扣LeeCode-739. 每日温度&#xff08;中&#xff09; 学习与理解过程&#xff0c;本文仅做学习之用&#xff0c;对本题感兴趣的小伙伴可以出门左拐LeeCode。 给定一个整数数组 temperatures &#xff0c;表示每天的温度&#xff0c;返回一个数组 answer &#xff0c;其…

SQL Server 备份和还原

CSDN 成就一亿技术人&#xff01; 难度指数&#xff1a;* CSDN 成就一亿技术人&#xff01; 目录 1. 备份 01. 为什么要备份&#xff1f; 02. 备份的类型 03. 备份实例 2. 还原 01. 还原类型 02. 删除数据库 03. 还原数据库 测试 04. 恢复失败的原因 1. 备份 01.…

冒泡排序-排序算法

前言 如果有6个人站成一排&#xff0c;要将他们按从矮到高的顺序排列。你可能有多种方式来完成。但是如果其中有一个人特别高&#xff0c;比他身边的人高&#xff0c;在队伍中特别明显&#xff0c;你可以轻易看出那个最高的需要和身边的人交换位置&#xff0c;这是冒泡排序的核…

自然语言处理24-T5模型的介绍与训练过程,利用简单构造数据训练微调该模型,体验整个过程

大家好,我是微学AI,今天给大家介绍一下自然语言处理24-T5模型的介绍与训练过程,利用简单构造数据训练微调该模型,体验整个过程。在大模型ChatGPT发布之前,NLP领域是BERT,T5模型为主导,T5(Text-to-Text Transfer Transformer)是一种由Google Brain团队在2019年提出的自然…

iOS 小组件开发

iOS14之后Apple引入了新的WidgetKit&#xff0c;舍弃了原有额TodayExtension。 开发准备&#xff1a; 新的WidgetExtension只能通过SwiftUI进行开发&#xff1b; Widget有三种尺寸&#xff1a;systemSmall、 systemMedium、systemLarge&#xff0c;三种尺寸对应固定的UI类型布…

简易机器学习笔记(六)不同优化算法器

前言 我们之前不是说了有关梯度下降公式的事嘛&#xff0c;就是那个 这样梯度下降公式涉及两个问题&#xff0c;一是梯度下降的策略&#xff0c;二是涉及到参数的选择&#xff0c;如果我们选择固定步长的时候&#xff0c;就会发现我们求的值一直在最小值左右震荡&#xff0c…

java 开源中文的繁简体转换工具 opencc4j-01-overview

Opencc4j Opencc4j 支持中文繁简体转换&#xff0c;考虑到词组级别。 拓展阅读 pinyin 汉字转拼音 pinyin2hanzi 拼音转汉字 segment 高性能中文分词 opencc4j 中文繁简体转换 nlp-hanzi-similar 汉字相似度 word-checker 拼写检测 sensitive-word 敏感词 Features 特…

视频融合云平台/智慧监控平台EassyCVR告警警告出错是什么原因?该如何解决?

视频集中存储/云存储/视频监控管理平台EasyCVR能在复杂的网络环境中&#xff0c;将分散的各类视频资源进行统一汇聚、整合、集中管理&#xff0c;实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。AI智能/大数据视频分析EasyCVR平台已经广泛应用在工地、工厂、园区、楼…

快速打通 Vue 3(一):基本介绍与组合式 API

很激动进入了 Vue 3 的学习&#xff0c;作为一个已经上线了三年多的框架&#xff0c;很多项目都开始使用 Vue 3 来编写了 这一组文章主要聚焦于 Vue 3 的新技术和新特性 如果想要学习基础的 Vue 语法可以看我专栏中的其他博客 Vue&#xff08;一&#xff09;&#xff1a;Vue 入…

数据库攻防学习之Redis

Redis 0x01 redis学习 在渗透测试面试或者网络安全面试中可能会常问redis未授权等一些知识&#xff0c;那么什么是redis&#xff1f;redis就是个数据库&#xff0c;常见端口为6379&#xff0c;常见漏洞为未授权访问。 0x02 环境搭建 这里可以自己搭建一个redis环境&#xf…

VS2022 Android NativeActivity 开发指南

几年前最初使用VS时&#xff0c;记得是有Android NativeActivity的&#xff0c;今天更新到了2022最新版&#xff0c;发现找不到这个创建选项。 然后确保安装了C 跨平台开发工具后&#xff0c;开始排查原因。 Visual Studio 2022 中没有“本机活动应用程序” - android - SO中…

AndroidStudio导入程序、项目(教程)

目录 1. 首先解压压缩包&#xff0c;转为文件夹 2. 打开解压好的项目文件夹&#xff0c;删除.gradle和.idea这两个文件 3. 修改bulid.gradle文件&#xff0c;将gradle的版本型号改成自己的 (1) 传统结构 (2) 简洁结构 4. 打开android stdio软件&#xff0c;导入已经修改好…

STM32 学习(二)GPIO

目录 一、GPIO 简介 1.1 GPIO 基本结构 1.2 GPIO 位结构 1.3 GPIO 工作模式 二、GPIO 输出 三、GPIO 输入 1.1 传感器模块 1.2 开关 一、GPIO 简介 GPIO&#xff08;General Purpose Input Output&#xff09;即通用输入输出口。 1.1 GPIO 基本结构 如下图&#xff0…

Docker(八)Python+旧版本chrome+selenium+oss2+fastapi镜像制作

目录 一、背景二、能力三、核心流程图四、制作镜像1.资源清单2.Dockerfile3.制作镜像 五、启动测试 一、背景 近几年我们线下的创业团队已从零到一开发过好几个小程序项目&#xff0c;都是和体育相关。其中生成海报分享图片好像都是不可或缺的功能。之前的项目老板给的时间都比…

STM32MP157D-DK1 Qt程序交叉编译与运行测试

上篇文章介绍了STM32MP157D-DK1开发板Qt镜像的构建&#xff0c;通过在Ubuntu中重新编译带有Qt功能的系统来实现。 本篇在上篇的基础上&#xff0c;继续搭建Qt的交叉编译环境&#xff0c;实现Qt程序在Ubuntu中编译&#xff0c;在STM32MP157板子中运行。 1 编译安装SDK 在上篇…

dyld: Library not loaded: /usr/lib/swift/libswiftCoreGraphics.dylib

更新Xcode14后低版本iPhone调试报错 dyld: Library not loaded: /usr/lib/swift/libswiftCoreGraphics.dylib Referenced from: /var/containers/Bundle/Application/…/….app/… Reason: image not found 这是缺少libswiftCoreGraphics库 直接导入libswiftCoreGraphics库即…

数据库云平台新数科技完成B轮融资,打造全链路智能化数据库云平台

数据库云平台软件厂商「北京新数科技有限公司」&#xff08;以下简称「新数科技」&#xff09;已于2023年完成B1轮和B2轮融资&#xff0c;分别由渤海创富和彬复资本投资&#xff1b;义柏资本担任本轮融资独家财务顾问。 新数科技成立于2014年&#xff0c;当前产品矩阵包括数据库…

经典卷积神经网络-VGGNet

经典卷积神经网络-VGGNet 一、背景介绍 VGG是Oxford的Visual Geometry Group的组提出的。该网络是在ILSVRC 2014上的相关工作&#xff0c;主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构&#xff0c;分别是VGG16和VGG19&#xff0c;两者并…

@EnableXXX注解+@Import轻松实现SpringBoot的模块装配

文章目录 前言原生手动装配模块装配概述模块装配的四种方式准备工作声明自定义注解 导入普通类导入配置类导入ImportSelector导入ImportBeanDefinitionRegistrar 总结TODO后续--条件装配 前言 最早我们开始学习或接触过 SSH 或者 SSM 的框架整合&#xff0c;大家应该还记得那些…

RabbitMQ基础知识

一.什么是RabbitMQ RabbitMQ是一个开源的、高性能的消息队列系统&#xff0c;用于在应用程序之间实现异步通信。它实现了AMQP&#xff08;Advanced Message Queuing Protocol&#xff09;协议&#xff0c;可以在分布式系统中传递和存储消息。 消息队列是一种将消息发送者和接收…