【数据分析实战】基于python对Airbnb房源进行数据分析

请添加图片描述

文章目录

  • 📚引言
  • 📖数据加载以及基本观察
    • 📃缺失值观察及处理
      • 🔖缺失值观察以及可视化
      • 🔖缺失值处理
    • 📃异常值观察及处理
  • 📖数据探索
    • 💡哪个区域的房源最受欢迎?
    • 💡哪种房型最受欢迎?它们的价格怎么样?
    • 💡最受欢迎的房源和最不受欢迎的房源有什么特征?
  • 📍总结与展望

📚引言

🙋‍♂️作者简介:生鱼同学,大数据科学与技术专业硕士在读👨‍🎓,曾获得华为杯数学建模国家二等奖🏆,MathorCup 数学建模竞赛国家二等奖🏅,亚太数学建模国家二等奖🏅。

✍️研究方向:复杂网络科学

🏆兴趣方向:利用python进行数据分析与机器学习,数学建模竞赛经验交流,网络爬虫等。

自2008年以来,客人和房东利用Airbnb扩大了旅行的可能性,并提出了一种更独特、个性化的体验世界的方式。

通过Airbnb提供的数百万个房源的数据分析是该公司的一个关键因素。这些数以百万计的房源产生了大量的数据其可以被分析并用于安全、商业决策、了解客户和供应商(房东)在平台上的行为和表现、指导营销举措、实施创新的附加服务等等。

基于上述背景和数据,我们本次主要解决下面几个问题:

  • 哪个区域的房源最受欢迎?
  • 哪种房型最受欢迎?它们的价格怎么样?
  • 最受欢迎的房源和最不受欢迎的房源有什么特征?

本项目中的数据来源于Kaggle开放数据New York City Airbnb Open Data链接如下:
Kaggle-New York City Airbnb Open Data
需要的小伙伴可以自行下载获取。

📖数据加载以及基本观察

在进行数据加载之前,我们首先对数据的各个列进行解释,具体情况如下表所示:

列名表达含义
id挂牌编号
name挂牌名字
host_id主人编号
host_name主人名字
neighbourhood_group房屋所在区域
neighbourhood房屋具体地区
latitude经纬度
longitude经纬度
room_type房间类型
price价格
minimum_nights最少的预定夜数
number_of_reviews评论数
last_review最新评论
reviews_per_month每月评论数
calculated_host_listings_count主人拥有房屋的数量
availability_365可供预订的天数

在开始编码之前,请先确保你已经安装了对应的包,本文所用的包如下:

import pandas as pd
import missingno as msno
import seaborn as sns

在这一步中,我们将加载数据并且调用pandas中的基本函数对数据进行初步的观察。加载数据代码如下:

data = pd.read_csv('AB_NYC_2019.csv')
data.head()

结果如下:
在这里插入图片描述
在加载数据过后,我们需要对数据进行初步的认识与观察,这里我们调用**info()describe()**函数来对数据进行初步的观察。代码和结果如下:

data.info()

结果如下:
在这里插入图片描述

注意:在这一步中,我们观察到图中红圈标记的数据存在一定的缺失情况,这在后续的操作中需要进行处理。

接着,我们调用**describe()**进行数据的进一步观察,代码如下:

data.describe()

结果如下:
在这里插入图片描述

注意:在这里,我们已经发现了一个异常,这里的minimum_nights表示的是最短租赁时长。然而,它的最大值已经超过了365,我们后续需要留意。

📃缺失值观察及处理

🔖缺失值观察以及可视化

在发现缺失值后,我们需要对缺失值进行有针对性的观察和处理,我们首先对其进行提取以及可视化的操作。首先提取所有缺失的列以及它们缺失的个数情况,代码如下:

missing_data = data.isnull().sum()
missing_data = missing_data[missing_data > 0]
missing_data

结果如下:
在这里插入图片描述
可以看到,在名字以及主人名字方面存在一定的缺失,关于评论的缺失情况比较明显且多,我们后面会进行有针对性地处理。

接下来我们对其进行可视化,在这里我们会使用缺失值可视化库以及柱状图来进行可视化,代码如下:

# 对数据进行采样
sample_data = data.sample(1000)
# 可视化
msno.bar(sample_data)

结果如下:
在这里插入图片描述
另外,我们也可以用柱状图来进行可视化,代码如下:

missing_data.plot.bar()

结果如下:
在这里插入图片描述

🔖缺失值处理

在处理缺失值之前,我们首先要进行分析。

主要缺失的值有上述四列,我们对其的分析以及处理方案如下:

  • name :房屋名称,无关紧要的列,准备删除。
  • host_name :主人姓名,无关紧要的列,准备删除。
  • last_review :最新的评论,如果该房屋不存在评论,那么这列一定为0,所以准备将其删除,保留下面的每月评论。
  • reviews_per_month:保留,对缺失值填充0。

上述操作的代码如下:

# 删除了['id','host_name','last_review']三列
data.drop(['id','host_name','last_review'], axis=1, inplace=True)
# 用0填充'reviews_per_month'为Nan的数据
data.fillna({'reviews_per_month':0}, inplace=True)

📃异常值观察及处理

在上面的分析中,我们观察到了minimum_nights的异常情况,在这里我们使用箱线图对其进行可视化观察,代码如下:

data['minimum_nights'].plot.box()

结果如下:

在这里插入图片描述

我们可以观察到,红色标记的部分即是可能的异常值,我们对其进行处理。代码如下:

# 将该列大于365的数据改为365
data.loc[data['minimum_nights'] > 365, 'minimum_nights'] = 365

📖数据探索

在本节中,我们将从数据出发进行合理的探索,得出一些结论。

💡哪个区域的房源最受欢迎?

在这个问题的探索中,我们将从两个角度考虑问题,即评论越多证明房屋的欢迎程度越高,与此同时可用天数越少证明房屋越火爆。我们首先来看看数据中有几个不同的地区,代码如下:

# 探究有几个不同的地区
data.neighbourhood_group.unique()

结果如下;

在这里插入图片描述
然后我们分别对针对评论数以及年度可用天数进行分组组成新的数据,代码如下:

# 根据评价对区域房源进行分析
# 评论越多越受欢迎
neighbourhood_group_reviews = data['number_of_reviews'].groupby(data['neighbourhood_group'])
neighbourhood_group_reviews_data = pd.DataFrame(neighbourhood_group_reviews.sum().sort_values(ascending = False))
neighbourhood_group_reviews_data

#  根据可用天数对区域房源进行分析
#  可用天数越小越受欢迎
neighbourhood_group_availability_365 = data['availability_365'].groupby(data['neighbourhood_group'])
neighbourhood_group_availability_365_data = pd.DataFrame(neighbourhood_group_availability_365.mean().sort_values())
neighbourhood_group_availability_365_data

两个数据所组成的新表如下:

在这里插入图片描述
在这里插入图片描述
我们可以看到,不论是从年度可用天数还是评论数目来说,Brooklyn的房屋都是最受欢迎的,接下来我们利用可视化来进行更直观的观察,代码如下:

sns.barplot(x="neighbourhood_group", y="number_of_reviews", data=popular_neighbourhood_group_data, palette="RdYlBu")
sns.barplot(x="neighbourhood_group", y="availability_365", data=popular_neighbourhood_group_data, palette="RdYlBu")

结果如下:
在这里插入图片描述
在这里插入图片描述
这样来看,结果就比较容易观察到了。基于上述分析,我们得出以下结论:

  • Brooklyn不论是从年度可用天数还是评论数目来说,都能证明其是最受欢迎的地区。
  • Brooklyn的平均年度可用天数为100左右,而其房屋评论数目的总和达到了486574的最高评论数。
  • Manhattan紧随其后,受欢迎程度与Brooklyn相近,但是其不如Brooklyn受欢迎。

💡哪种房型最受欢迎?它们的价格怎么样?

在本节中,我们将要探索那种房子的类型最受欢迎,以及他们的价格特点。

首先,我们从全部地区的角度来观察不同房型的受欢迎程度以及其平均的价格如何。我们将要建立房型与价格、评论数目、可用天数的表格并进行可视化,代码如下:

# 建立房型与价格的表
price_room_type = data['price'].groupby(data['room_type'])
price_room_type_data = pd.DataFrame(price_room_type.mean())
# 建立房型与评论数的表
reviews_room_type = data['number_of_reviews'].groupby(data['room_type'])
reviews_room_type_data = pd.DataFrame(reviews_room_type.sum())
# 建立房型与可用天数的表
availability_365_room_type = data['availability_365'].groupby(data['room_type'])
availability_365_room_type_data = pd.DataFrame(availability_365_room_type.mean())
# 将上述表合并
popular_type_value = pd.concat([availability_365_room_type_data,reviews_room_type_data,price_room_type_data], axis=1)
popular_type_value['room_type'] = popular_type_value.index
popular_type_value.reset_index(inplace=True,drop=True)
popular_type_value

结果如下:
在这里插入图片描述
为了更直观的进行分析,我们对其进行可视化。代码如下:

sns.barplot(x="room_type", y="availability_365", data=popular_type_value, palette="RdYlBu")
sns.barplot(x="room_type", y="number_of_reviews", data=popular_type_value, palette="RdYlBu")
sns.barplot(x="room_type", y="price", data=popular_type_value, palette="RdYlBu")

结果如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出,Entire home/apt在所有的房屋类型中,所有的方面来说都是最火爆的。

接下来,我们将从不同的地区分别建立透视表进行进一步的分析与探索。

我们分别构建评论数目,地区,房间类型的透视表、年度可用天数与房间类型,地区的联系表、价格与房间类型,地区的联系表。

具体代码如下:

# 构建评论数目,地区,房间类型的透视表
sum_reviews_pivot = data.pivot_table('number_of_reviews', index='neighbourhood_group', columns='room_type', aggfunc='sum')

结果如下:
在这里插入图片描述
然后我们对其进行可视化,代码如下:

sum_reviews_pivot.plot.bar()

结果如下:
在这里插入图片描述
我们同样将其与年度可用天数,和价格构建透视表,然后进行可视化,代码和结果如下:

# 构建年度可用天数与房间类型,地区的联系表
mean_availability_365_pivot = data.pivot_table('availability_365', index='neighbourhood_group', columns='room_type', aggfunc='mean')
mean_availability_365_pivot.plot.bar()

# 构建价格与房间类型,地区的联系表
mean_price_pivot = data.pivot_table('price', index='neighbourhood_group', columns='room_type', aggfunc='mean')
mean_price_pivot.plot.bar()

结果如下:

在这里插入图片描述
在这里插入图片描述
根据上述分析,我们可以得出以下结论:

  • 在所有的地区总体来看,Entire home/apt都是最受欢迎的房型,但是其平均价格也是最贵的,在211左右。
  • 在Brooklyn和Manhattan这两个地区,Entire home/apt都是最受欢迎的房型,但是在其他地区情况略有不同。
  • 从价格来看,Manhattan的Entire home/apt是最贵的,均价在249左右。而Brooklyn相对便宜,在178左右。

💡最受欢迎的房源和最不受欢迎的房源有什么特征?

为了解决本节的问题,我们首先要把最受欢迎的房子和最不受欢迎的房子提取出来并且利用**describe()**查看我们所关心的信息,代码如下:

top_10 = data.sort_values(by='number_of_reviews', ascending=False).head(10)

结果如下:
在这里插入图片描述
通过**describe()**进行初步观察的结果如下:
在这里插入图片描述
我们发现,价格数据以及最短居住时间的数据仿佛和平均值有一定的差异,我们从完整的数据取出其值并进一步对照观察。

我们先来看全局的价格平均值与最欢迎的平均值的对比,代码和结果如下:

# 全局数据各房型价格的平均值
data['price'].groupby(data['room_type']).mean()
# 最受欢迎的数据各房型价格的平均值
top_10['price'].groupby(top_10['room_type']).mean()

全局数据各房型价格平均值如下,结果如下:
在这里插入图片描述
最受欢迎的10个房型价格平均值如下:
在这里插入图片描述
我们发现最受欢迎的10个房型价格比平均值偏低。

进一步的,我们对照其最小居住时长。代码和结果如下:

data['minimum_nights'].groupby(data['room_type']).mean()
top_10['minimum_nights'].groupby(top_10['room_type']).mean()

全局数据各房型价格平均值如下,结果如下:
在这里插入图片描述

最受欢迎的10个房型价格平均值如下:
在这里插入图片描述
我们发现最受欢迎的10个房型最小居住时长比平均值偏低。

类似的,我们在最不受欢迎的十个房间中也发现了相反的情况,由于篇幅限制本文不再展示过程,感兴趣的朋友可以自己试试看。

基于上述数据,我们得出结论:

  • 最受欢迎的房间,通常价格比平均价格低并且其最短居住时间会很小。
  • 上述情况存在一定的可解释性,即大部分的游客或者居住者都是旅行者,其更容易接受价格实惠允许短时间居住的房间。
  • 最不受欢迎的房子,通常价格比平均价格高很多,并且其最短居住时间过长。
  • 基于上述内容,房子持有者可以通过下调房间价格至平均值下或者进一步减小居住时长来提高房子的居住率。

📍总结与展望

在本文中,我们基于Airbnb房源进行了数据分析,并从多种角度对其展开了探索性的工作。这对于养成数据分析习惯有很大的帮助,在实际工作或者学习中还需要不断练习。

感兴趣的朋友们可以自己按照上述步骤进行操作,或在评论区与我讨论。

需要源码的朋友可以私信我进行索取,我们下次再见。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/4491.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

完全二叉树的4种遍历方式

一张二叉树的图 1&#xff0c;二叉树的特点 每个点p的左儿子是p*2,右儿子是p*21&#xff0c;可以分别表示为p<<1与p<<1|1节点的序号是从左到右&#xff0c;从上到下增加的每个点至多2个儿子&#xff08;屁话&#xff08;bushi&#xff09;&#xff09; 2&#xff…

C语言自定义数据类型(六)使用枚举类型

目录 一、定义 二、详解 三、举例说明 一、定义 如果一个变量只有几种可能的值&#xff0c;则可以定义为枚举 (enumeration) 类型&#xff0c;所谓 “ 枚举 ” 就是指把可能的值一一列举出来&#xff0c;变量的值只限于列举出来的值的范围内。 声明枚举类型用 enum 开头。…

UR5 D-H信息 | UR5结构图 | UR5连杆名关节名 | UR5模型信息 | UR5 UDFR信息

这个问题遇到好多次了&#xff0c;不管是仿真还是可视化&#xff0c;都需要我清楚的掌握ur5的URDF信息。但是看官网的Ur5.urdf真的是看的迷迷糊糊的&#xff0c;总是无法把ur5机器人的某个部位和她的名字对应起来。之前都搞不太明白&#xff0c;今天好好整理一下&#xff0c;分…

工赋开发者社区 | 做好生产线的规划与布局,能给工厂带来什么好处?

导读工厂规划布局就是对设备、工作台、物料、工装、半成品、水、电、气等的综合配置&#xff0c;主要是研究工序之间、车间之间以及工厂整体配置的合理性&#xff0c;以达到整个生产系统的人流与物流畅通化、搬运最优化、流程最优化、效率最大化的目标。“想优化工厂空间&#…

NIO Reactor模型(含代码)

概览 我们知道NIO就是调用系统内核的的select/poll/epoll方法来实现&#xff0c;这些系统内核方法会扫描或监控IO&#xff0c;每次将所有的IO的状态返回给NIO线程。让NIO线程可以选择处理读取可读状态的IO流&#xff0c;也可以选择继续监控轮询监控IO的其它状态。 reactor模型也…

【web前端开发】超详细讲解CSS盒子模型

文章目录1.盒子模型介绍2.内容3.边框4.内边距5.⭐盒子大小计算6.⭐内减模式7.外边距外边距的合并外边距的塌陷行内元素的垂直外边距8.⭐清除默认样式9.⭐版心居中1.盒子模型介绍 所有HTML元素可以看作盒子,CSS盒模型本质上是一个盒子&#xff0c;封装周围的HTML元素&#xff0c…

C#多线程锁

背景&#xff1a;再一次测试中用户和我几乎同一时刻&#xff08;不知道谁先谁后&#xff0c;估计间隔在毫秒级&#xff09;操作了系统。 用户那边反馈显示的操作日志是我登录的信息。于是开始查找问题。首先排除了全局变量先后操作被覆盖的原因。首先A账户登录&#xff0c;然后…

基于stm32mp157 linux开发板ARM裸机开发教程3:Cortex-A7 架构与工作模式(连载中)

前言&#xff1a; 目前针对ARM Cortex-A7裸机开发文档及视频进行了二次升级持续更新中&#xff0c;使其内容更加丰富&#xff0c;讲解更加细致&#xff0c;全文所使用的开发平台均为华清远见FS-MP1A开发板&#xff08;STM32MP157开发板&#xff09; 针对对FS-MP1A开发板&…

用 ChatGPT 尝试 JavaScript 交互式学习体验,有用但不完美

很好&#xff0c;但还不能取代专家导师&#xff0c;有时还会犯错&#xff01;ChatGPT 教小狗编程&#xff08; Midjourney 创作&#xff09;GPT-4刚刚发布&#xff0c;相较于GPT-3.5&#xff0c;它有显著的增强功能。其中之一是它在更长时间的交互和更大的提示下&#xff0c;能…

Pytorch环境配置 完整流程 从CUDA和cuDNN到Torch安装

目录1. 安装CUDA2. 安装cuDNN3. 安装Pytorch1. 安装CUDA 确认需要的CUDA版本 nvidia-smi 下载CUDA.exe CUDA下载地址 结合自己电脑的情况下载对印度个版本 安装 双击后安装&#xff0c;可以修改安装路径&#xff0c;我安装在了D盘 安装方式选择自定义 全部勾选 这里如果电脑没…

nnAudio的简单介绍

官方实现 https://github.com/KinWaiCheuk/nnAudio&#xff1b; 论文实现&#xff1a; nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks&#xff1b; 以下先对文章解读&#xff1a; abstract 在本文中&#x…

美国站针对磁铁产品新政策16 CFR 1262详解

近日&#xff0c;亚马逊美国站公布磁铁产品&#xff08;不包括玩具&#xff09;的新政策更新公告&#xff0c;公告如下&#xff1a; 公告显示&#xff0c;由于美国消费品安全委员会&#xff08;US Consumer Product Safety Commission&#xff09;出台了新的安全规定&#xff…

海王算法(看完不会变成海王)

&#x1f4a7;学了海王算法会变成海王吗&#xff0c;它又能解决什么样的问题呢&#xff1f;&#x1f4a7; &#x1f337; 仰望天空&#xff0c;妳我亦是行人.✨ &#x1f984; 个人主页——微风撞见云的博客&#x1f390; &#x1f433; 数据结构与算法专栏的文章图文…

内存池解释及线程池(Linux)实现

1.内存池1.什么是内存池内存池是一种内存分配方式。在真正使用内存之前&#xff0c;先申请分配一定数量的、大小相等的内存块留作备用。当有新的内存需求时&#xff0c;就从内存池中分出一部分内存块&#xff0c;若内存块不够再继续申请新的内存。使用内存池的优点有&#xff1…

Pyspark_SQL3

Pyspark 注&#xff1a;大家觉得博客好的话&#xff0c;别忘了点赞收藏呀&#xff0c;本人每周都会更新关于人工智能和大数据相关的内容&#xff0c;内容多为原创&#xff0c;Python Java Scala SQL 代码&#xff0c;CV NLP 推荐系统等&#xff0c;Spark Flink Kafka Hbase Hi…

会声会影2023新版本功能详情讲解

会声会影2023Corel VideoStudio一款功能丰富的视频编辑软件。会声会影2023简单易用&#xff0c;具有史无前例的强大功能&#xff0c;拖放式标题、转场、覆叠和滤镜&#xff0c;色彩分级、动态分屏视频和新增强的遮罩创建器&#xff0c;超越基本编辑&#xff0c;实现影院级效果。…

【Django 网页Web开发】12. 实战项目:分页组件的封装 面向接口编程(05)(保姆级图文)

目录1. 对象的方式使用分页组件2. 项目结构3. 编写pagination.py3.1 pagination.py3.2 view.py4. bug修改之&#xff1a;url中搜索关键词q和page4.1 构造url的一个雏形4.2 修改我们的分页组件4.3 搜索小bug5. 应用分页组件&#xff0c;几行代码实现用户管理分页5.1 批量创建用户…

『 MySQL篇 』:MySQL 索引相关问题

目录 一 . 认识索引 二. 索引的数据结构 1 . B Tree vs Hash 2 . B Tree vs 二叉树/红黑树 3 . B 树 vs B树 三. 索引的使用 1. 索引分类 2. 索引用法 一 . 认识索引 当我们在查询一本书中的内容时 , 你会选择翻页每一页去查询呢 ? 还是说按照书的目录去找 ? 答案是…

springmvc(一)

SpringMVC是隶属于Spring框架的一部分&#xff0c;主要是用来进行Web开发&#xff0c;是对Servlet进行了封装。 对于SpringMVC我们主要学习如下内容: SpringMVC简介 请求与响应 REST风格 SSM整合(注解版) 拦截器 SpringMVC是处于Web层的框架&#xff0c;所以其主要的作用就是用…

微信小程序开发:微信小程序生命周期总结

前言 在微信小程序开发中&#xff0c;关于微信小程序API的使用是必备技能&#xff0c;但是关于微信小程序的生命周期也是首先要了解和掌握的知识点。尤其是现在的前端开发领域&#xff0c;关于前端的各种框架和技术都要会&#xff0c;而且微信小程序的语法就是JS的翻版&#xf…