使用Pandas计算两个系统客户名称的相似度

在这里插入图片描述


引言:

在日常业务处理中,我们经常会面临将不同系统中的数据进行匹配和比对的情况。特别是在涉及到客户管理的领域,我们需要确保两个系统中的客户记录是准确、一致和无重复的。

本文将介绍如何使用Python的Pandas库来处理这个问题。我们将以一个示例情景为例,假设我们有一个MR系统和一个客户系统,这两个系统都有一个客户ID和客户名称的列。我们的目标是根据客户ID匹配后,计算两列客户名称的相似度。

步骤1:导入必要的库

首先,我们需要导入必要的库。除了Pandas库,我们还将使用fuzzywuzzy库来计算字符串相似度。

import pandas as pd
from fuzzywuzzy import fuzz

步骤2:创建示例数据集

为了演示我们的方法,让我们创建一个简单的示例数据集。假设我们有一个包含MR系统客户信息的DataFrame,其中包括客户ID和客户姓名的列。同样地,我们还有一个包含客户系统客户信息的DataFrame,其中也包括客户ID和客户姓名的列。

mr_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信', '中石油股份有限公司', '中国工商银行', '阿里巴巴集团', '腾讯控股有限公司']
})

customer_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信通信集团', '中石化石油化工集团', '中国建设银行股份有限公司', '京东集团有限公司', '百度在线网络技术']
})

步骤3:数据匹配和相似度计算

现在,我们将根据客户ID将这两个数据集进行匹配,并计算两列客户名称的相似度。我们可以使用Pandas的merge()方法来合并两个数据集,并根据客户ID进行匹配。

matched_data = pd.merge(mr_system, customer_system, on='客户ID')

然后,我们可以使用fuzzywuzzy库的fuzz.ratio()方法来计算两列客户名称的相似度。该方法返回一个介于0到100之间的分数,表示两个字符串的相似程度。

matched_data['相似度'] = matched_data.apply(lambda row: fuzz.ratio(row['客户姓名_x'], row['客户姓名_y']), axis=1)

步骤4:结果展示

最后,我们可以打印出匹配后的数据和相似度结果。

print(matched_data[['客户ID', '客户姓名_x', '客户姓名_y', '相似度']])

结果示例:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
1	1002	中石油股份有限公司	中石化石油化工集团	33
2	1003	中国工商银行	中国建设银行股份有限公司	44
3	1004	阿里巴巴集团	京东集团有限公司	29
4	1005	腾讯控股有限公司	百度在线网络技术	0

步骤5:查询相似度大于40的客户

matched_data.loc[matched_data.相似度 > 40]

输出:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
2	1003	中国工商银行	中国建设银行股份有限公司	44

结论:

通过使用Pandas库和字符串相似度算法,我们可以方便地计算两个系统中客户名称的相似度。这有助于我们发现和处理重复或相似的客户记录,提高数据的准确性和

🚀💻 欢迎一起探索pandas的更多精彩博客!🌟
🔗1️⃣ Pandas特殊连接:模糊连接和有序变量表连接!
🔗2️⃣ pandas特征工程:线性变换
🔗3️⃣ Pandsa时间序列采样频率滑窗及重采样
🔗4️⃣ Pandas 日期处理:生成及去除工作日与节假日
🔗5️⃣ Python音频处理——pydub
🔗6️⃣Python使用XPath解析HTML:从入门到精通
🔗7️⃣Pandas:客户数据清洗

一起来学习吧!😄🎉 #编程 #CSDN #Python #Pandas #Astropy #Pydub 🎓💡🎯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/38883.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

美颜SDK与动态贴纸技术的发展趋势:向更智能、更新颖的美化

美颜SDK和动态贴纸技术在近年来迅速发展,成为移动应用、社交媒体和视频直播等领域中不可或缺的元素。本文将探讨美颜SDK和动态贴纸技术的最新发展趋势,包括智能化算法的应用、增强现实的融合以及个性化定制的兴起。我们将展望未来,展示这些技…

STM32(HAL库)通过ADC读取MQ2数据

目录 1、简介 2、CubeMX初始化配置 2.1 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 ADC外设配置 2.3 串口外设配置 2.4 项目生成 3、KEIL端程序整合 3.1 串口重映射 3.2 ADC数据采集 3.3 主函数代 3.4 效果展示 1、简介 本文通过STM32F103C8T6单片机通过HAL库方式对M…

注释气泡图函数(更新)

之前我们写过一个原创可视化函数Dotplot_anno.R,nature级别图表:一个注释气泡热图函数(适用于单细胞及普通数据)。主要解决的问题是1) 单细胞基因可视化分组注释。2) Bulk RNA差异基因热图、气泡图。3) 富集分析结果气泡图展示。这…

【案例实战】高并发业务的多级缓存架构一致性解决方案

我们在高并发的项目中基本上都离不开缓存,那么既然引入缓存,那就会有一个缓存与数据库数据一致性的问题。 首先,我们先来看看高并发项目里面Redis常见的三种缓存读写模式。 Cache Aside 读写分离模式,是最常见的Redis缓存模式&a…

JVM理论(五)执行引擎--解释器/JIT编译器

概述 首先执行引擎是java虚拟机核心的组成部分之一;而JVM的主要任务是装载字节码到内存,但不能够直接运行在操作系统之上.因为字节码指令并非等价于本地机器指令,它仅仅包含能够被JVM所识别的指令、符号表、以及其他信息;而此时执行引擎就华丽登场,它的任务就是将字节码指令解…

Appium Android ——利用 TestNG 并行执行用例

目录 前言: 一、测试类 二、连接两个 Android 设备或启动两个虚拟机 三、项目路径下新建两个 testng.xml 四、开启两个 appium server 五、导出依赖 六、执行测试 七、查看报告 前言: Appium是一个流行的移动应用自动化测试工具,…

当DevOps遇到AI,黑马迎来3.0时代丨IDCF

随着GhatGPT的爆火,人工智能和研发效能,无疑成为了2023的两个最重要的关键词。大规模语言模型LLM和相关应用的快速发展正在对研发团队的工作方式产生深远影响,这几乎象征着新的生产力革命的到来。 那么,作为一名工程师&#xff0…

拓宽“主航道”的Serverless与EDA领域,亚马逊云科技不断创新开拓

在新潮如走马灯般变换的时尚界,每隔几年就会刮起一阵复古风。被誉为“时尚教父”的著名设计师安德烈莱昂塔利曾说:“时尚总是在寻找新的灵感和方向,而复古是其中一个重要的来源。” 无独有偶。日新月异的高科技领域也会出现公认的“过时”…

【Ajax】笔记-取消请求

在进行AJAX(Asynchronous JavaScript and XML) 请求时,有时候我们需要取消正在进行的请求。取消请求可以帮助我们提高用户体验,病减少不必要的网络流量和服务器负载。 取消请求的方法 在AJAX请求中,我们可以使用以下方法来取消正在进行的请求…

【C语言】扫雷----详解(扩展版)

🍁 博客主页:江池俊的博客_CSDN博客 🍁 如果觉得博主的文章还不错的话,请点赞👍收藏🌟 三连支持一下博主💞 ✉️每一次努力都是一次进步,每一次尝试都是一次机会。无论遇到什么困难,…

使用Python和Scrapy实现抓取网站数据

Scrapy是一个功能强大的网络爬虫框架,允许开发者轻松地抓取和解析网站内容,这篇文章主要为大家介绍了如何使用Python的Scrapy库进行网站数据抓取,需要的可以参考一下 在本文中,我们将介绍如何使用Python的Scrapy库进行网站数据抓…

优化营商环境:构建智能营销平台,助力企业经营发展

对于企业来说,没有了客户,就像身体没有了血液,将失去生命力和活力,续存难发展更难。区域产业又是由一个个企业集聚而形成,企业的成败也就决定着区域产业的兴衰。 在当今竞争激烈的商业环境中,传统的销售手段…

【计算机视觉】DINOv2(视觉大模型)代码使用和测试(完整的源代码)

文章目录 一、环境部署二、导入原图2.1 使用vit_s14的模型 三、使用其他模型3.1 使用vit_b14的模型3.2 使用vit_l14的模型3.3 使用vit_g14的模型 一、环境部署 !git clone https://ghproxy.com/https://github.com/facebookresearch/dinov2.git输出为: Cloning in…

详解CPU的态

目录 1.CPU的工作过程 2.寄存器 3.CPU的上下文 4.系统调用 5.CPU的态 1.CPU的工作过程 CPU要执行的指令的地址存在寄存器中,指令存放在内存中,而CPU本质上就是一个去内存中根据地址取指令,然后执行指令的硬件。 举一个例子&#xff1a…

应用级监控方案Spring Boot Admin

1.简介 Spring Boot Admin为项目常用的监控方式,可以动态的监控服务是否运行和运行的参数,如类的调用情况、流量等。其中分为server与client: server: 提供展示UI与监控服务。client:加入server,被监控的…

http1.0、http1.1 http 2.0

HTTP/1.0是无状态、无连接的应用层协议。 无连接 无连接:每次请求都要建立连接,需要使用 keep-alive 参数建立长连接、HTTP1.1默认长连接keep-alive   无法复用连接,每次发送请求都要进行TCP连接,TCP的连接释放都比较费事&…

[爬虫]解决机票网站文本混淆问题-实战讲解

前言 最近有遇到很多小伙伴私信向我求助,遇到的问题基本上都是关于文本混淆或者是字体反爬的问题。今天给大家带来其中一个小伙伴的实际案例给大家讲讲解决方法 📝个人主页→数据挖掘博主ZTLJQ的主页 ​​ 个人推荐python学习系列: ☄️爬虫J…

在Windows下安装Anaconda平台

Anaconda介绍 安装Python的方法有很多,其中利用Anaconda来安装,是最为安全和便捷的方法之一。在Python中安装类库,各个类库之间可能存在相互依赖、版本冲突等问题。为了解决这个问题,Python社区提供了方便的软件包管理工具&#…

在SPringBoot生成验证码

1.引入依赖,这个依赖中包含了生成验证码的工具类 <!--引入hutool --><dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.3.9</version></dependency> 2.编写配置类 import cn.hu…

【NLP】国外新动态--LLM模型

一、说明 NLP走势如何?这是关于在实践中使用大型语言模型(LLM)的系列文章中的一篇文章。在这里,我将介绍LLM,并介绍使用它们的3个级别。未来的文章将探讨LLM的实际方面,例如如何使用OpenAI的公共API,Hugging Face Transformers Python库,如何微调LLM,以及如何从头开始…