python - pandas常用计算函数

文中所用数据集有需要的可以私聊我获取

学习目标 

  • 知道排序函数nlargest、nsmallest和sort_values的用法

  • 知道Pandas中求和、计数、相关性值、最小、最大、平均数、标准偏差、分位数的函数使用

  • 1 排序函数

    • 导包并加载数据集

      import pandas as pd
      ​
      # 加载csv数据, 返回df对象
      df = pd.read_csv('../data/LJdata.csv')
      print(df.head())
      # 获取前10条数据
      df2 = df.head(10)
      print(df2)
      ​
      # 输出结果如下
               区域          地址    户型  面积  价格  朝向    更新时间  看房人数
      0    燕莎租房        新源街  2室1厅    50  5800    南  2017.07.21        26
      1    望京租房      澳洲康都  2室1厅    79  7800    东  2017.07.23        33
      2  广安门租房      远见名苑  2室1厅    86  8000    东  2017.07.20        34
      3  天通苑租房  天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      4  团结湖租房    团结湖北口  2室1厅    63  6400    南  2017.07.26        30
               区域            地址    户型  面积  价格  朝向    更新时间  看房人数
      0    燕莎租房          新源街  2室1厅    50  5800    南  2017.07.21        26
      1    望京租房        澳洲康都  2室1厅    79  7800    东  2017.07.23        33
      2  广安门租房        远见名苑  2室1厅    86  8000    东  2017.07.20        34
      3  天通苑租房    天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      4  团结湖租房      团结湖北口  2室1厅    63  6400    南  2017.07.26        30
      5  回龙观租房          龙华园  1室1厅    58  4000    南  2017.07.23        61
      6    北苑租房          筑华年  3室1厅    89  7500    南  2017.07.25        29
      7    马甸租房          月季园  2室1厅    53  6000    南  2017.07.16        26
      8  小西天租房        今典花园  2室1厅    73  8500    西  2017.07.23        44
      9    北苑租房  北苑家园绣菊园  2室1厅    82  5300  东南  2017.07.26        30

    1.1 nlargest和nsmallest函数

    通过 df.nlargest(n, 列名) 方法实现对指定列的值由大到小排序, 返回前n行数据

    通过 df.nsmallest(n, 列名) 方法实现对指定列的值由小到大排序, 返回前n行数据

    n: 整数, n行数据, 默认为5

    列名: 指定排序的列名

    • 用nlargest方法,选出价格最高的5条房源信息

      # df.nlargest(n, '列名') # 根据指定列的值由大到小排列,返回n行数据
      print(df2.nlargest(5, '价格'))
      ​
      # 输出结果如下
               区域        地址    户型  面积  价格 朝向    更新时间  看房人数
      8  小西天租房    今典花园  2室1厅    73  8500   西  2017.07.23        44
      2  广安门租房    远见名苑  2室1厅    86  8000   东  2017.07.20        34
      1    望京租房    澳洲康都  2室1厅    79  7800   东  2017.07.23        33
      6    北苑租房      筑华年  3室1厅    89  7500   南  2017.07.25        29
      4  团结湖租房  团结湖北口  2室1厅    63  6400   南  2017.07.26        30

    • 用nsmallest方法, 选出看房人数最少的5条房源信息

      # df.nsmallest(n, '列名') # 根据指定列的值由小到大排列,返回n行数据
      print(df2.nsmallest(5, '看房人数'))
      ​
      # 输出结果如下
               区域          地址    户型  面积  价格  朝向    更新时间  看房人数
      0    燕莎租房        新源街  2室1厅    50  5800    南  2017.07.21        26
      7    马甸租房        月季园  2室1厅    53  6000    南  2017.07.16        26
      6    北苑租房        筑华年  3室1厅    89  7500    南  2017.07.25        29
      3  天通苑租房  天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      4  团结湖租房    团结湖北口  2室1厅    63  6400    南  2017.07.26        30

    1.2 sort_values函数

    通过 df.sort_values(列名列表, ascending=) 方法根据指定列指定排序方式排序

    ascending: True或False, 默认True->升序, 也可以接收布尔值列表, 每列指定排序方式

    • df.sort_values函数可以按照指定的一列或多列的值进行排序

      # 按价格列的数值由小到大进行排序
      print(df2.sort_values(['价格']))
      # 按价格列的数值由大到小进行排序
      print(df2.sort_values(['价格'], ascending=False))
      # 先对看房人数列由小到大排序, 再对价格列由大到小排序
      print(df2.sort_values(['看房人数', '价格'], ascending=[True, False]))
      ​
      # 输出结果如下
               区域            地址    户型  面积  价格  朝向    更新时间  看房人数
      5  回龙观租房          龙华园  1室1厅    58  4000    南  2017.07.23        61
      3  天通苑租房    天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      9    北苑租房  北苑家园绣菊园  2室1厅    82  5300  东南  2017.07.26        30
      0    燕莎租房          新源街  2室1厅    50  5800    南  2017.07.21        26
      7    马甸租房          月季园  2室1厅    53  6000    南  2017.07.16        26
      4  团结湖租房      团结湖北口  2室1厅    63  6400    南  2017.07.26        30
      6    北苑租房          筑华年  3室1厅    89  7500    南  2017.07.25        29
      1    望京租房        澳洲康都  2室1厅    79  7800    东  2017.07.23        33
      2  广安门租房        远见名苑  2室1厅    86  8000    东  2017.07.20        34
      8  小西天租房        今典花园  2室1厅    73  8500    西  2017.07.23        44
               区域            地址    户型  面积  价格  朝向    更新时间  看房人数
      8  小西天租房        今典花园  2室1厅    73  8500    西  2017.07.23        44
      2  广安门租房        远见名苑  2室1厅    86  8000    东  2017.07.20        34
      1    望京租房        澳洲康都  2室1厅    79  7800    东  2017.07.23        33
      6    北苑租房          筑华年  3室1厅    89  7500    南  2017.07.25        29
      4  团结湖租房      团结湖北口  2室1厅    63  6400    南  2017.07.26        30
      7    马甸租房          月季园  2室1厅    53  6000    南  2017.07.16        26
      0    燕莎租房          新源街  2室1厅    50  5800    南  2017.07.21        26
      3  天通苑租房    天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      9    北苑租房  北苑家园绣菊园  2室1厅    82  5300  东南  2017.07.26        30
      5  回龙观租房          龙华园  1室1厅    58  4000    南  2017.07.23        61
               区域            地址    户型  面积  价格  朝向    更新时间  看房人数
      7    马甸租房          月季园  2室1厅    53  6000    南  2017.07.16        26
      0    燕莎租房          新源街  2室1厅    50  5800    南  2017.07.21        26
      6    北苑租房          筑华年  3室1厅    89  7500    南  2017.07.25        29
      4  团结湖租房      团结湖北口  2室1厅    63  6400    南  2017.07.26        30
      3  天通苑租房    天通苑北一区  2室1厅   103  5300  东南  2017.07.25        30
      9    北苑租房  北苑家园绣菊园  2室1厅    82  5300  东南  2017.07.26        30
      1    望京租房        澳洲康都  2室1厅    79  7800    东  2017.07.23        33
      2  广安门租房        远见名苑  2室1厅    86  8000    东  2017.07.20        34
      8  小西天租房        今典花园  2室1厅    73  8500    西  2017.07.23        44
      5  回龙观租房          龙华园  1室1厅    58  4000    南  2017.07.23        61

    • Series.sort_valuesDataFrame.sort_values的效果一致,只是无需指定排序依据的列

      print(df2['价格'].sort_values())
      print(df2['价格'].sort_values(ascending=False))
      ​
      # 输出结果如下
      5    4000
      3    5300
      9    5300
      0    5800
      7    6000
      4    6400
      6    7500
      1    7800
      2    8000
      8    8500
      Name: 价格, dtype: int64
      8    8500
      2    8000
      1    7800
      6    7500
      4    6400
      7    6000
      0    5800
      9    5300
      3    5300
      5    4000
      Name: 价格, dtype: int64

    2 常用聚合函数

    常用聚合函数有:

    • corr 相关性

    • min 最小值

    • max 最大值

    • mean 平均值

    • std 标准偏差

    • quantile 分位数

    • sum 求和

    2.1 corr函数计算数值列之间的相关性

    df6 = df[['面积','价格','看房人数']]  # 先获取数字列,因为相关性只能统计数字列
    print(df6.corr())
    ​
    # 输出结果如下
                  面积      价格  看房人数
    面积      1.000000  0.710056 -0.114706
    价格      0.710056  1.000000  0.019457
    看房人数 -0.114706  0.019457  1.000000
    ​
    """
    相关性得分越接近1, 代表正相关性越强; 越接近-1, 代表负相关性越强 自己和自己相关性为1
    面积和价格呈现正相关, 面积越大, 价格越贵
    """

    2.2 min函数计算最小值

    df.min()会返回df中每一列的最小值构成的Series

     
    print(df.min()) # 列出每一列的最小值,有些列的最小值没有意义
    df['价格'].min()  #求出价格之一列的最小值
    ​
    # 输出结果如下
    区域          北苑租房
    地址          今典花园
    户型            1室1厅
    面积                50
    价格              4000
    朝向                东
    更新时间    2017.07.16
    看房人数            26
    dtype: object

    2.3 max函数计算最大值

    max函数计算最大值,用法和min函数的用法一致

     
    print(df.max())
    df['价格'].max()  #求出价格之一列的最大值
    ​
    # 输出结果如下
    区域          马甸租房
    地址            龙华园
    户型            3室1厅
    面积               103
    价格              8500
    朝向                西
    更新时间    2017.07.26
    看房人数            61
    dtype: object

    2.4 mean函数计算平均值

    mean函数计算平均值,用法和min函数的用法一致,但只会对数值类型的数据进行计算

     
    print(df.mean())
    print(df['价格'].mean())
    ​
    # 输出结果如下
    面积          73.6
    价格        6460.0
    看房人数      34.3
    dtype: float64
    6460.0

    2.5 std函数计算标准偏差

    标准偏差:用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。

    标准差=方差开方

    方差=每个值和平均值差值的平方

     
    print(df6.std())
    print(df2['价格'].std())
    ​
    # 输出结果如下
    面积          17.296114
    价格        1445.452640
    看房人数      10.698390
    dtype: float64
    1445.4526396023266

    2.6 quantile函数计算分位数

    • 分位数(Quantile),亦称分位点,常用的有中位数(即二分位数)、四分位数、百分位数等;那什么是分位数呢?我们以中位数为例:通过把一堆数字按大小排序后找出正中间的一个数字作为中位数,如果这一堆数字有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。

    • quantile函数默认返回二分位数;可以通过传入参数来控制返回的四分位数,或其他分位数

     
    # 二分位数(中位数)
    print(df6.quantile())
    print(df6['看房人数'].quantile())
    # 返回四分位数
    print(df6.quantile([0.25, 0.5, 0.75]))
    print(df6['看房人数'].quantile([0.25, 0.5, 0.75]))
    # 返回三分位数
    print(df6.quantile([1 / 3, 2 / 3]))
    print(df6['看房人数'].quantile([1 / 3, 2 / 3]))
    ​
    # 输出结果如下
    面积          76.0
    价格        6200.0
    看房人数      30.0
    Name: 0.5, dtype: float64
    30.0
           面积    价格  看房人数
    0.25  59.25  5425.0     29.25
    0.50  76.00  6200.0     30.00
    0.75  85.00  7725.0     33.75
    0.25    29.25
    0.50    30.00
    0.75    33.75
    Name: 看房人数, dtype: float64
              面积    价格  看房人数
    0.333333  63.0  5800.0      30.0
    0.666667  82.0  7500.0      33.0
    0.333333    30.0
    0.666667    33.0
    Name: 看房人数, dtype: float64

    2.7 sum函数求和

    sum函数计算求和,用法和min函数的用法一致, 数值列求和, 非数值列拼接

    print(df6.sum())
    print(df6['看房人数'].sum())
    ​
    # 输出结果如下
    区域        燕莎租房望京租房广安门租房天通苑租房团结湖租房回龙观租房北苑租房马甸租房小西天租房北苑租房...
    地址        新源街澳洲康都远见名苑天通苑北一区团结湖北口龙华园筑华年月季园今典花园北苑家园绣菊园...
    户型        2室1厅2室1厅2室1厅2室1厅2室1厅1室1厅3室1厅2室1厅2室1厅2室1厅...
    面积                                                      736
    价格                                                    64600
    朝向                                 南东东东南南南南南西东南
    更新时间    2017.07.212017.07.232017.07.202017.07.252017.0...
    看房人数                                                  343
    dtype: object
    343

    2.8 count计算非空数据的个数

     
    # 构造空值
    df2.loc[0, '看房人数'] = None
    print(df2.count())
    print(df2['看房人数'].count())
    ​
    # 输出结果如下
    区域        10
    地址        10
    户型        10
    面积        10
    价格        10
    朝向        10
    更新时间    10
    看房人数     9
    dtype: int64
    9

    总结

    请对下列API 有印象、能找到、能理解、能看懂

  • 排序

    • nlargest函数 由大到小排序获取指定数量的数据

    • nsmallest函数 由小到大排序获取指定数量的数据

    • sort_values函数 按值排序

  • 聚合函数

    • corr函数 相关性计算

    • min函数 计算最小值

    • max函数 计算最大值

    • mean函数 计算平均值

    • std函数 计算标准偏差

    • quantile函数 计算分位数

    • sum函数 计算所有数值的和

    • count函数 计算非空数据的个数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/694540.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL之多表查询—行子查询

一、引言 上篇博客学习了列子查询。 接下来学习子查询中的第三种——行子查询。 行子查询 1、概念 子查询返回的结果是一行&#xff08;当然可以是多列)&#xff0c;这种子查询称为行子查询。 2、常用的操作符 、 <> (不等于) 、IN 、NOT IN 接下来通过一个需求去演示和…

系统思考—心智模式

凯恩斯说&#xff1a;“介绍新观念倒不是很难&#xff0c;难的是清除那些旧观念。”在过去的任何一年&#xff0c;如果你一次都没有推翻过自己最中意的想法&#xff0c;那么你这一年就算浪费了。旧观念像是根深蒂固的杂草&#xff0c;即使在新知识的光照下&#xff0c;也需要时…

stream 流的一些底层实现原理

闭包 闭包的底层实现?外层的变量成为方法的一部分会生成一个lambda方法&#xff0c;将源本的2个参数转化3个参数此时变量就成为了方法的一部分值是如何传递的呢?会有一个专门的类用于存储此变量的值 流的切分后再并行 数组或者是集合&#xff0c;需要用到一个可切分的迷代器这…

如何一键拷贝PPT中的所有文字?

有时我们可能需要引用PPT的文字&#xff0c;但一个幻灯片一个幻灯片拷贝很是麻烦&#xff0c;我们想一键拷贝PPT中所有幻灯片中的内容&#xff08;最近我就遇到了这个需求&#xff09;。今天就来讲讲这个一键拷贝的技巧。因为大家可能会遇到同样的问题&#xff0c;所以在此记录…

[Vue-常见错误]浏览器显示Uncaught runtime errors

文章目录 错误描述正确写法具体如下 错误描述 当前端代码发生错误时&#xff0c;浏览器中出现以下错误提示。 正确写法 显然这不是我们所期望的&#xff0c;在vue.config.js中配置如下设置关闭Uncaught runtime errors显示 devServer: {client: {overlay: false}具体如下 …

Matlab|遗传粒子群-混沌粒子群-基本粒子群

目录 1 主要内容 2 部分代码 3 效果图 4 下载链接 1 主要内容 很多同学在发文章时候最犯愁的就是创新点创新点创新点&#xff08;重要的事情说三遍&#xff09;&#xff0c;对于采用智能算法的模型&#xff0c;可以采用算法改进的方式来达到提高整个文章创新水平的目的&…

二叉查找树详解

目录 二叉查找树的定义 二叉查找树的基本操作 查找 插入 建立 删除 二叉树查找树的性质 二叉查找树的定义 二叉查找树是一种特殊的二叉树&#xff0c;又称为排序二叉树、二叉搜索树、二叉排序树。 二叉树的递归定义如下&#xff1a; &#xff08;1&#xff09;要么二…

知识图谱的应用---智能电网

文章目录 智能电网典型应用 智能电网 智能电网以物理电网为基础&#xff0c;将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。它以充分满足用户对电力的需求和优化资源配置、确保电力供应的安全性、可靠性和经济性、满…

代码随想录-Day28

93. 复原 IP 地址 有效 IP 地址 正好由四个整数&#xff08;每个整数位于 0 到 255 之间组成&#xff0c;且不能含有前导 0&#xff09;&#xff0c;整数之间用 ‘.’ 分隔。 例如&#xff1a;“0.1.2.201” 和 “192.168.1.1” 是 有效 IP 地址&#xff0c;但是 “0.011.255…

业务扩张阶段

和之前相比就是服务器的数量增多了 业务系统增多了 每个业务的用户也在增多 采购费用和电费挺多 选课系统一年只用几次&#xff0c;平时不用太浪费服务器的资源&#xff0c;那么怎么才能提高服务器资源的利用率呢 在一个服务器上部署多个不同的业务系统能行吗 不太行&…

TransformerFAM:革新深度学习的新型注意力机制

深度学习领域的一项突破性技术——Transformer架构&#xff0c;已经彻底改变了我们处理序列数据的方式。然而&#xff0c;Transformer在处理长序列数据时面临的二次复杂度问题&#xff0c;限制了其在某些应用场景下的潜力。针对这一挑战&#xff0c;研究者们提出了一种名为Tran…

Qwen2大模型微调入门实战(完整代码)

Qwen2是通义千问团队的开源大语言模型&#xff0c;由阿里云通义实验室研发。以Qwen2作为基座大模型&#xff0c;通过指令微调的方式实现高准确率的文本分类&#xff0c;是学习大语言模型微调的入门任务。 指令微调是一种通过在由&#xff08;指令&#xff0c;输出&#xff09;对…

使用vite从0开始搭建vue项目

使用Vite从0开始创建vue项目 第一步&#xff1a;创建项目目录 mkdir vue-demo -创建目录 cd vue-demo --进入项目 npm init -y --生成package.json文件 第二步&#xff1a;安装vite、typescript--ts、vue、vitejs/plugin-vue--对单文件组件、热重载、生产优化的支持 pnpm…

【Python】探索 One-Class SVM:异常检测的利器

我已经从你的 全世界路过 像一颗流星 划过命运 的天空 很多话忍住了 不能说出口 珍藏在 我的心中 只留下一些回忆 &#x1f3b5; 牛奶咖啡《从你的全世界路过》 在数据科学和机器学习领域&#xff0c;异常检测&#xff08;Anomaly Detection&#xff09;是…

工业通讯现场中关于EtherCAT转TCPIP网关的现场应用

在当今工业自动化的浪潮中&#xff0c;EtherCAT技术以其高效、实时的特性成为了众多制造业的首选。然而&#xff0c;随着工业互联网的发展&#xff0c;对于数据的远程访问和云平台集成的需求日益增长&#xff0c;这就需要将EtherCAT协议转化为更为通用的TCP/IP协议。于是开疆智…

【MMU】——MMU 权限控制

文章目录 权限控制内存访问权限内存类型XN execute neverDomain 权限控制 内存访问权限 内存类型 TEX C B bit 控制信息 XN execute never 不可执行区域&#xff0c;例如设备地址空间通常标记为不可执行区域&#xff0c;如果有指令预取访问了该空间&#xff0c;就会触发指令…

CVE-2022-4230

CVE-2022-4230 漏洞介绍 WP Statistics WordPress 插件13.2.9之前的版本不会转义参数&#xff0c;这可能允许经过身份验证的用户执行 SQL 注入攻击。默认情况下&#xff0c;具有管理选项功能 (admin) 的用户可以使用受影响的功能&#xff0c;但是该插件有一个设置允许低权限用…

快速入门Linux及使用VSCode远程连接Linux服务器

在当前的技术环境中&#xff0c;Linux操作系统因其强大的功能和灵活性而广受欢迎。无论你是开发人员、系统管理员还是技术爱好者&#xff0c;学习Linux都是提升技术技能的重要一步。本文将介绍如何快速入门Linux&#xff0c;并使用Visual Studio Code&#xff08;VSCode&#x…

【RAG入门教程03】Langchian框架-文档加载

Langchain 使用文档加载器从各种来源获取信息并准备处理。这些加载器充当数据连接器&#xff0c;获取信息并将其转换为 Langchain 可以理解的格式。 LangChain 中有几十个文档加载器&#xff0c;可以在这查看https://python.langchain.com/v0.2/docs/integrations/document_lo…

王学岗鸿蒙开发(北向)——————(七、八)ArkUi的各种装饰器

arts包含如下&#xff1a;1&#xff0c;装饰器 &#xff1b;2&#xff0c;组件的描述(build函数)&#xff1b;3&#xff0c;自定义组件(Component修饰的),是可复用的单元&#xff1b;4&#xff0c;系统的组件(鸿蒙官方提供)&#xff1b;等 装饰器的作用:装饰类、变量、方法、结…