查询行数和列数
data.describe()
查询前3行数据
data.head(3)
打印第几行第几列
data.loc[index, cloumn_name ]
分组统计 不带行索引
data.groupby( column_1 )[ column_2 ].apply(sum)
去除含有NAN数据行/列
df = df.dropna() # default: axis=0, how='any' 意思是只要有nan,就删除一行,how='any|all';若how='all',则代表当一行全为nan,才会删除。若把axis=0改为1,则代表删除列。
删除数据中重复值
drop_duplicates函数 :
数据合并:
提供了concat,merge,join和append四种方法用于dataframe的拼接
过滤属性:
filter(items=['列名1','列名2'])
用正则过滤
data.filter(regex="", axis=1)
iterrows函数用于对DataFrame进行迭代循环
删除列
pd.pop('列名')
根据字段类型来筛选数据,可以包含或者排除一个或者多个字段类型的数据。
查询包含多列类型的数据
pd.select_dtypes(include=['列名','列名'])
查询不包含多列类型的数据
pd.select_dtypes(exclude=['列名','列名'])
select_dtypes()
查看每列的数据类型
pd.dtypes
进行比较的一个函数:ge表示greater equal
数据求和
expanding 这是一个窗口函数,实现的是一种类似累计求和的功能
pd.expanding(1).sum()