使用pandas的merge()和join()函数进行数据处理

目录

一、引言

二、pandas的merge()函数

基本用法

实战案例

三、pandas的join()函数

基本用法

实战案例

四、merge()与join()的比较与选择

使用场景:

灵活性:

选择建议:

五、进阶案例与代码

六、总结


一、引言

在数据分析和处理中,数据整合是一个至关重要的步骤。Python的pandas库提供了强大的数据处理功能,其中merge()和join()函数是数据整合中常用的方法。本文将详细讲解pandas的merge()和join()函数的用法,并通过实战案例和代码,帮助新手朋友理解和掌握这两个函数。

二、pandas的merge()函数

merge()函数是pandas库中用于数据合并的主要函数,它基于一个或多个键将两个DataFrame对象合并在一起。merge()函数支持多种合并类型,如内连接(inner)、左连接(left)、右连接(right)和外连接(outer)。

基本用法

merge()函数的基本语法如下:

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None,  
             left_index=False, right_index=False, sort=True,  
             suffixes=('_x', '_y'), copy=True, indicator=False,  
             validate=None)

其中,left和right参数分别表示要合并的两个DataFrame对象;how参数指定合并类型;on参数指定用于合并的列名;left_on和right_on参数分别指定左侧和右侧DataFrame中用于合并的列名;left_index和right_index参数表示是否将左侧的索引和右侧的索引作为合并的键;suffixes参数用于在合并过程中解决列名冲突;copy参数表示是否返回合并后的新对象;indicator参数用于在合并后的DataFrame中添加一个指示列,标识每行数据的来源;validate参数用于验证合并操作的有效性。

实战案例

假设我们有两个DataFrame对象,分别表示两个班级的学生信息:

import pandas as pd  
  
# 创建第一个DataFrame对象,表示班级A的学生信息  
df1 = pd.DataFrame({  
    'student_id': [1, 2, 3, 4],  
    'name': ['Alice', 'Bob', 'Charlie', 'David'],  
    'class': 'A'  
})  
  
# 创建第二个DataFrame对象,表示班级B的学生信息,并包含学生的分数  
df2 = pd.DataFrame({  
    'student_id': [2, 3, 5, 6],  
    'score': [90, 85, 92, 88],  
    'class': 'B'  
})  
  
# 使用merge()函数进行内连接,基于student_id列合并两个DataFrame  
merged_inner = pd.merge(df1, df2, how='inner', on='student_id')  
print(merged_inner)

执行上述代码后,将输出两个班级共有的学生信息及其分数。

三、pandas的join()函数

join()函数是pandas库中用于数据连接的另一个函数,它基于索引进行连接。与merge()函数不同,join()函数主要用于在Series或DataFrame之间基于索引进行连接操作。

基本用法

join()函数的基本语法如下:

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

其中,other参数表示要连接的另一个Series或DataFrame对象;on参数指定用于连接的列名或索引;how参数指定连接类型(默认为左连接);lsuffix和rsuffix参数用于在连接过程中解决列名冲突;sort参数表示是否对连接后的数据进行排序。

实战案例

假设我们有两个DataFrame对象,其中df1包含学生信息,其索引为学生ID;df2包含学生的分数信息,其索引也为学生ID:

# 使用set_index()方法将student_id列设置为索引  
df1.set_index('student_id', inplace=True)  
df2.set_index('student_id', inplace=True)  
  
# 使用join()函数进行左连接,基于索引连接两个DataFrame  
joined_left = df1.join(df2, how='left')  
print(joined_left)

执行上述代码后,将输出df1中的所有学生信息以及与之匹配的df2中的分数信息。对于df1中存在但在df2中不存在的学生,其分数列将填充为NaN。

四、merge()与join()的比较与选择

merge()和join()函数在pandas中都是用于数据整合的重要工具,但它们在使用场景和特性上存在一些差异。以下是对这两个函数的比较和选择建议:

使用场景:

merge()函数基于列进行合并,适用于两个DataFrame之间基于共同列(键)的数据整合。它支持多种合并类型,包括内连接、左连接、右连接和外连接,并允许指定多个键进行合并。
join()函数基于索引进行连接,适用于DataFrame或Series之间基于索引的数据整合。它主要进行左连接操作,即将一个对象中的行与另一个对象中索引匹配的行连接起来。

灵活性:

merge()函数在合并时提供了更多的选项和灵活性,如可以指定多个键进行合并、处理列名冲突等。它还支持合并后数据的排序和验证。
join()函数相对简单,主要用于基于索引的左连接操作。它不支持多键合并或复杂的合并类型,但在处理基于索引的数据整合时更加直观和高效。

选择建议:

当需要基于共同列(键)进行数据整合时,应首选merge()函数。它提供了更多的选项和灵活性,可以满足各种合并需求。
当数据已经基于索引进行组织,并且需要基于索引进行数据整合时,可以选择join()函数。它在处理基于索引的数据时更加直观和高效。

五、进阶案例与代码

为了更好地说明merge()和join()函数的使用,我们将通过一个进阶案例来展示它们的实际应用。

案例:假设我们有两个DataFrame,df_orders表示订单信息,包含订单ID、客户ID、订单日期和订单金额;df_customers表示客户信息,包含客户ID、客户姓名和客户地址。我们需要将这两个DataFrame合并,以便获取每个订单的客户姓名和地址。

首先,我们创建两个示例DataFrame:

import pandas as pd  
  
# 创建订单信息DataFrame  
df_orders = pd.DataFrame({  
    'order_id': [1, 2, 3, 4],  
    'customer_id': [101, 102, 101, 103],  
    'order_date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],  
    'order_amount': [100, 200, 150, 300]  
})  
  
# 创建客户信息DataFrame,并设置客户ID为索引  
df_customers = pd.DataFrame({  
    'customer_id': [101, 102, 103],  
    'customer_name': ['Alice', 'Bob', 'Charlie'],  
    'customer_address': ['Address A', 'Address B', 'Address C']  
}).set_index('customer_id')  
  
# 使用merge()函数进行左连接,基于customer_id列合并两个DataFrame  
merged_df = df_orders.merge(df_customers, left_on='customer_id', right_index=True)  
print(merged_df)

在上面的代码中,我们首先创建了两个示例DataFrame,df_orders包含订单信息,df_customers包含客户信息,并将客户ID设置为索引。然后,我们使用merge()函数进行左连接,将df_orders中的订单信息与df_customers中的客户信息合并起来。在merge()函数中,我们指定了left_on='customer_id'表示左侧DataFrame的合并键为customer_id列,right_index=True表示右侧DataFrame的合并键为索引。

执行代码后,将输出合并后的DataFrame,其中包含订单信息、客户姓名和客户地址。注意,由于我们使用了左连接,所以即使某些订单在df_customers中没有对应的客户信息(如客户ID为104的订单),这些订单仍然会出现在合并后的DataFrame中,但客户姓名和客户地址列将填充为NaN。

六、总结

本文详细介绍了pandas库中merge()和join()函数的使用方法和实战案例。merge()函数基于列进行合并,支持多种合并类型和选项,适用于基于共同列(键)的数据整合;而join()函数基于索引进行连接,主要用于基于索引的数据整合。通过比较和选择建议,我们可以根据实际需求选择合适的函数进行数据整合操作。同时,我们还通过进阶案例展示了这两个函数在实际应用中的强大功能。希望本文能够帮助新手朋友更好地理解和掌握pandas的merge()和join()函数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/600723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

领航法律科技,法大大多年深耕再获认可!

近日,“乘势破局 第八届新兴法律服务业高峰论坛”在上海隆重举行。作为国内领先的电子签厂商,法大大凭借在法律科技领域的多年深耕与沉淀,荣获“法律科技领航机构”称号。 据悉,新兴法律服务业高峰论坛作为国内首个聚焦“新兴法律…

董事长张轶群刚被罚,合规问题屡见不鲜,富友支付IPO胜算几何?

第三方支付机构富友支付又双叒来冲刺上市了。 与此前两次冲刺A股不同的是,富友支付此次选择在港股上市。近日,富友支付向港交所主板递交上市申请,联席保荐人为中信证券、申万宏源香港。值得一提的是,此前的2018年、2021年&#x…

网络基础——路由

网络基础——路由 要想网络畅通,应让网络中的路由器知道如何转发数据包到各个网段。路由器根据路由表来转发数据包,而路由表是通过直连网络、静态路由以及动态路由来构建的。 route命令,底层是使用ioctl实现;ip命令,…

Misc 流量分析

流量分析简介 网络流量分析是指捕捉网络中流动的数据包,并通过查看包内部数据以及进行相关的协议、流量分析、统计等来发现网络运行过程中出现的问题。 在CTF比赛中,以及各种技能大赛对于流量包的分析取证是一种十分重要的题型。通常这类题目都是会提供…

Java | Leetcode Java题解之第66题加一

题目&#xff1a; 题解&#xff1a; class Solution {public int[] plusOne(int[] digits) {int n digits.length;for (int i n - 1; i > 0; --i) {if (digits[i] ! 9) {digits[i];for (int j i 1; j < n; j) {digits[j] 0;}return digits;}}// digits 中所有的元素…

【牛客】【模板】差分

原题链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 差分模板。 b[0]a[0]; b[1]a[1]-a[0]; b[2]a[2]-a[1]; ...... b[n-1]a[n-1]-a[n-2]; b[n]a[n]-a[n-1]; 差分标记&#xff1a;b[l]k,b…

2024年荆州中级工程师报名开始了吗?

2024年荆州中级工程师职称报名已经开始了 2024年荆州中级职称报名时间&#xff1a; &#xff08;一&#xff09;网上报名时间&#xff1a; 4月26日9时至5月10日16时。超过时间将不能操作。 &#xff08;二&#xff09;网上缴费时间&#xff1a; 4月26日9时至5月10日24时 网上…

(五)JVM实战——JVM性能调优与监控

JVM调优案例的场景 为什么要调优&#xff1a;防止或者解决jvm虚拟机中的OOM问题&#xff1b;减少FullGC出现的频率&#xff0c;解决系统运行卡、慢问题JVM调优案例的四个方面 OOM(堆溢出)&#xff1a;java heap spaceOOM(元空间溢出)&#xff1a;MetaspaceOOM(GC overhead lim…

分析错误ValueError: could not determine the shape of object type ‘Series‘

这个错误提示 ValueError: could not determine the shape of object type Series 通常发生在尝试将 pandas 的 Series 直接转换为 PyTorch 的 tensor 时&#xff0c;尤其是当 Series 的数据类型不明确或者包含非数值类型的数据时。为了修正这个问题&#xff0c;确保在转换之前…

利用Jenkins完成Android项目打包

问题和思路 目前存在的问题 打包操作由开发人员完成&#xff0c;这样开发进度容易被打断。 解决问题的思路 将打包操作交测试/产品/开发人员来完成&#xff0c;主要是测试/开发。 按照以上的思路&#xff0c;那么JenkinsGradle的解决方案是比较经济的&#xff0c;实现起来…

跟随Facebook的足迹:社交媒体背后的探索之旅

在当今数字化时代&#xff0c;社交媒体已经成为了人们日常生活中不可或缺的一部分。而在这庞大的社交媒体网络中&#xff0c;Facebook作为其中的巨头&#xff0c;一直在引领着潮流。从创立之初的一个大学社交网络到如今的全球性平台&#xff0c;Facebook的发展历程承载了无数故…

雷军-2022.8小米创业思考-6-互联网七字诀之专注:有所为,有所不为;克制贪婪,少就是多;一次解决一个最迫切的需求

第六章 互联网七字诀 专注、极致、口碑、快&#xff0c;这就是我总结的互联网七字诀&#xff0c;也是我对互联网思维的高度概括。 专注 从商业角度看&#xff0c;专注就是要“把鸡蛋尽量放在一个篮子里”。这听起来似乎有些不合理&#xff0c;大家的第一反应可能是“风险会不会…

stripe支付

使用第一个示例 1、示例中的PRICE_ID需要去Stripe控制台->产品目录创建产品 1、 添加产品 2、点击查看创建的产品详情 4、这个API ID就是demo中的PRICE_ID 注意&#xff1a;需要注意的是&#xff0c;测试模式和生产模式中的 $stripeSecretKey 需要对应上。简而言之就是不能生…

【嵌入式必读】一文彻底理解PID自整定及PID自整定代码设计

文章目录 1. 前言2. PID简介3. 常用的PID自整定方法3.1 临界度比例法3.2 衰减曲线法 4. 继电反馈整定法原理4.1 继电反馈自整定的基本思想4.2 继电反馈自整定原理 5. 算法设计5.1 振荡的生成5.2 提取出临界周期 T c T_c Tc​和振荡波形幅值 A A A5.3 计算出PID参数 6 原代码6.1…

【Linux】Docker 安装部署 Nacos

个人简介&#xff1a;Java领域新星创作者&#xff1b;阿里云技术博主、星级博主、专家博主&#xff1b;正在Java学习的路上摸爬滚打&#xff0c;记录学习的过程~ 个人主页&#xff1a;.29.的博客 学习社区&#xff1a;进去逛一逛~ 【Linux】Docker 安装部署 Nacos docker搜索na…

如何获得一个Oracle 23ai数据库(Virtual Appliance)

准确的说&#xff0c;是Oracle 23ai Free Developer版&#xff0c;因为企业版目前只在云上&#xff08;OCI和Azure&#xff09;和ECC上提供。 方法包括3种&#xff0c;本文介绍第1种&#xff1a; Virtual ApplianceRPM安装Docker 从此处下载虚拟机。 可以看到虚拟机需要4G内…

武汉星起航:精准布局,卓越服务——运营交付团队领跑亚马逊

在全球电商浪潮中&#xff0c;亚马逊平台以其独特的商业模式和全球化的市场布局&#xff0c;吸引了无数商家和创业者的目光。在这个充满机遇的市场中&#xff0c;武汉星起航电子商务有限公司凭借其专业的运营交付团队&#xff0c;以其独特的五对一服务体系和精准的战略布局&…

CSS学习笔记之基础教程(一)

1、CSS语法 CSS 规则集&#xff08;rule-set&#xff09;由选择器和声明块组成&#xff1a; 选择器指向您需要设置样式的 HTML 元素。 声明块包含一条或多条用分号分隔的声明。 每条声明都包含一个 CSS 属性名称和一个值&#xff0c;以冒号分隔。 多条 CSS 声明用分号分隔…

【Linux】文件内容相关的命令,补充:管道符

1、查看文件内容 &#xff08;1-1&#xff09;查看文件内容&#xff1a;cat&#xff0c;tac&#xff0c;head&#xff0c;tail 查看文件内容cat 文件名查看文件内容并显示行号cat -n 文件名倒着查看文件内容&#xff08;从最后一行开始&#xff09;tac 文件名查看文件前10行…

Pycharm远程同步的mapping与sync

用Pycharm进行项目远程部署的时候会遇到两个同步文件&#xff0c;一个是点击 tools—>deployment—>configration——>mapping 一个是链接虚拟环境的时候会有一个sync&#xff0c;那么这两种同步有什么区别呢&#xff1f; 区别就是&#xff0c;2包括1&#xff0c;要用…