目录
1. .str 模块
1.1 数据准备
1.2 .str 函数详解
1.2.1 .str capitalize() 首字母大写
1.2.2 .str casefold() 返回字符串的副本
1.2.3 .str cat() 连接输出
1.2.4 .str center(width[,fillchar]) 字符串居中
1.2.5 .str contains() 含有特定字符
1.2.6 .str count() 计数
1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾
1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符
1.2.9 .str swapcase() 字符串大小写翻转
1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串
1.2.11 .str join(str]) 连接生成新字符串
1.2.12 .str replace(str1,str2]) str2 替换 str1
1.2.13 .str split(str[,num]) 用 str 分割字符串
1.2.14 .str translate(table) 字符转换
我们实际处理数据时候,往往要对原始数据进行很多精细化处理,下面减少一些常用的处理字符串的方式。
1. .str 模块
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。Series 结构中有个 str 模块,可以对字符串数据进行精雕细琢。
1.1 数据准备
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bm', '456cj', '789du', 'e11fo']})
print(df)
type(df['data'])
1.2 .str 函数详解
1.2.1 .str capitalize() 首字母大写
df['data'].str.capitalize()
1.2.2 .str casefold() 返回字符串的副本
casefold 返回字符串的副本,所有的大写字符都被转换为小写字符,并且使用Unicode规范化,以便比较字符串时能够忽略大小写和语言差异。与lower()方法不同,casefold()方法在转换时考虑了更多的字符集和语言差异。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.casefold()
1.2.3 .str cat() 连接输出
cat 命令原来是一个Linux shell命令。它是 concatenate 的简写。它被放在最常用的shell命令中。它可以用于各种目的,如在终端上显示一个文件的内容,将一个给定文件的内容复制到另一个给定文件,追加和覆盖内容都可以用 cat 命令完成。 在 Python 中它用来连接所有的数据一起输出
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.cat()
1.2.4 .str center(width[,fillchar]) 字符串居中
center()是一个非常实用的方法。该方法主要用于将字符串居中,并在两侧填充指定字符(默认为空格)以达到指定的总长度。对于文本格式化、界面设计以及数据展示等场景,center()方法都能提供高效的解决方案。
-
width:指定字符串居中后的总长度,如果该长度小于原字符串长度,则原样返回字符串。
-
fillchar:可选参数,用于指定填充字符,默认为空格。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.center(20,"*")
1.2.5 .str contains() 含有特定字符
contains 方法可以判断子串是否在原字符串中。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.contains("M")
1.2.6 .str count() 计数
count 用于计算给定元素在字符串中出现的次数。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.count("(\d)")
1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾
endswith() 方法用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.endswith('\d')
1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符
extract 方法用于提取正则表达式pat中的捕获组作为DataFrame中的列。对于系列中的每个主题字符串,从正则表达式pat的第一个匹配中提取组。
pat : 带有捕获组的正则表达式模式。
flags : int, default 0 (no flags)
expand : 如果为真,则返回每个捕获组有一列的DataFrame。
df['data'].str.extract("(\d+)")
1.2.9 .str swapcase() 字符串大小写翻转
df['data'].str.swapcase()
1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串
find() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回开始的索引值,否则返回-1。
- str -- 指定检索的字符串
- beg -- 开始索引,默认为0。
- end -- 结束索引,默认为字符串的长度。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.find('a'))
print(df['data'].str.findall('a'))
1.2.11 .str join(str]) 连接生成新字符串
join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.join("-"))
1.2.12 .str replace(str1,str2]) str2 替换 str1
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.replace("a","A"))
1.2.13 .str split(str[,num]) 用 str 分割字符串
split 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.split("\d"))
1.2.14 .str translate(table) 字符转换
translate 用于执行字符转换操作。它接受一个映射表(translation table)作为参数,该映射表指定了要替换的字符以及它们的对应替换值。
import pandas as pd
# 创建一个示例 DataFrame
df = pd.DataFrame({'data': ['12345', '57890', '22222', '77777']})
table = str.maketrans( '0123456789','abcdefghij')
df['data'].str.translate(table)