1.数据选取操作
1.1. 选取单列
df['Q1']
df['Q2']
1.2. 选取多列
df[['team','Q1']]
df.loc[:,['team','Q1']]
1.3.选择行
- 使用指定索引选择
df[df.index=='Ack']
- 选择前n行
df[0:3]
df.iloc[:10,:]
1.4. 前n行,每隔m选择一个
df[0:10:3]
1.5. 条件选择
df[df.Q1>90]
df[(df.team=='C') & (df.Q2>90)]
2.排序和分组聚合
2.1.排序
df.sort_values(by='Q1')
df.sort_values(by='Q1',ascending=False)
df.sort_values(['team','Q2'],ascending=[False,True])
2.2.分组聚合
2.2.1.group by
- group by sum
df.groupby('team').sum()
- group by avg
df.groupby('team').mean()
- 复合统计
df.groupby('team').agg(
{
'Q1':sum,
'Q2':'count',
'Q3':'mean',
'Q4':max
}
)