python数据分析-房价数据集聚类分析

一、研究背景和意义

随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规律,为相关决策提供科学依据。

研究意义:

  1. 为购房者提供参考:通过聚类分析,可以将房价数据分为不同的类别,购房者可以根据自己的需求和预算选择适合的房源。
  2. 帮助房地产开发商制定营销策略:了解不同区域的房价特征和需求,可以帮助房地产开发商制定更有针对性的营销策略,提高销售效率。
  3. 为政府部门提供决策支持:政府部门可以通过房价数据的聚类分析,了解房地产市场的发展趋势和存在的问题,制定相应的政策措施,促进房地产市场的健康发展。
  4. 推动房地产市场的研究:房价数据的聚类分析是房地产市场研究的重要内容之一,通过对房价数据的深入分析,可以推动房地产市场的研究不断深入。

二、实证分析

首先导入数据集基本的包

数据和代码

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

然后读取数据集和展示

# 读取文件
file_path = 'df_cleaned2.csv'
data = pd.read_csv(file_path, encoding='utf-8')

# 展示数据的前几行以了解结构
print(data.head())

随后查看数据类型

 

接下来查看缺失值的情况

# 查看缺失值情况
missing_values = data.isnull().sum()
missing_values

 

# 绘制缺失值情况的柱状图
# 绘制缺失值情况的柱状图
plt.bar(missing_values.index, missing_values.values, color=['black' if value == 0 else 'white' for value in missing_values.values])
plt.xlabel("变量")
plt.ylabel("缺失值数量")
plt.title("数据集缺失值情况")
plt.xticks(rotation=90)
plt.show()

从上面的结果和可视化可以发现该数据集没有缺失值,接下来进行统计学描述性分析

# 描述性分析
data.describe()

接下来进行特征可视化,首先进行房价直方图可视化

import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
# 可视化
# 绘制总价的直方图
plt.hist(data["总价"], bins=20,color='pink')
plt.xlabel("总价")
plt.ylabel("频数")
plt.title("总价分布直方图")
plt.show()

 

 

接下来进行区域分析 

# 区域分析
data["区域位置"] = data["区域位置"].astype("category")
data.boxplot(column="总价", by="区域位置",boxprops={'color':'blue'})
plt.xlabel("区域")
plt.ylabel("总价")
plt.title("不同区域的总价箱线图")
plt.show()

 

# 绘制不同户型的平均总价柱状图

data.groupby("户型结构")["总价"].mean().plot(kind="bar",color='orange')
plt.xlabel("户型")
plt.ylabel("平均总价")
plt.title("不同户型的平均总价柱状图")
plt.show()

接下来计算特征直接的相关系数

correlation_matrix = data.corr()
correlation_matrix

 

热力图:

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
plt.title("相关系数热力图")
plt.show()

接下来进行聚类分析,首先进行特征选择,选择特征:关注度、总价、卫生间数量、建筑面积,然后标准化特征

随后使用手肘方法和轮廓系数确定最佳 K 值

sse = {}
silhouette_scores = {}
for k in range(2, 11):  # 从 2 开始,因为轮廓系数至少需要 2 个簇
    kmeans = KMeans(n_clusters=k, random_state=42).fit(scaled_selected_features)
    sse[k] = kmeans.inertia_
    silhouette_scores[k] = silhouette_score(scaled_selected_features, kmeans.labels_)
# 绘制手肘图
plt.figure(figsize=(10, 6))
plt.subplot(2, 1, 1)
plt.plot(list(sse.keys()), list(sse.values()), marker='o')
plt.xlabel("Number of Clusters (K)")
plt.ylabel("SSE (Sum of Squared Errors)")
plt.title("Elbow Method for Determining Optimal K Value")
plt.grid(True)

接下来使用 PCA 进行降维以便于可视化

pca = PCA(n_components=2)  # 降至 2 维
pca_result = pca.fit_transform(scaled_selected_features)

# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(pca_result[:, 0], pca_result[:, 1], c=labels, cmap='viridis', marker='o')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title(f'K-means Clustering with K={k} (PCA Reduced)')
plt.grid(True)
plt.show()

随后得出聚类中心

 

接下来根据聚类中心画出雷达图

# 标签,用于表示不同的聚类中心
labels = ['Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4']

# 特征数
num_features = len(centers[0])
angles = np.linspace(0, 2 * np.pi, num_features, endpoint=False).tolist()

# 将第一个特征点重复以闭合雷达图
centers = np.concatenate((centers, centers[:,[0]]), axis=1)
angles += angles[:1]

fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))
ax.set_theta_offset(np.pi / 2)
ax.set_theta_direction(-1)

# 绘制雷达图
for i in range(len(centers)):
    ax.plot(angles, centers[i], linewidth=2, label=labels[i])
    ax.fill(angles, centers[i], alpha=0.25)

# 添加标题和图例
plt.title('Radar Chart of Clusters')
plt.legend(loc='upper right', bbox_to_anchor=(1.1, 1.1))

plt.show()

接下来可视化主成分

# 可视化主成分 1 的载荷
plt.figure(figsize=(8, 4))
colors = ['red', 'green', 'blue', 'yellow', 'purple', 'orange', 'pink', 'brown', 'gray', 'cyan']
plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC1'], color=colors)
plt.xlabel('Features')
plt.ylabel('Loadings for PC1')
plt.title('PCA Loadings for Principal Component 1')
plt.show()

# 可视化主成分 2 的载荷
plt.figure(figsize=(8, 4))
plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC2'], color=colors)
plt.xlabel('Features')
plt.ylabel('Loadings for PC2')
plt.title('PCA Loadings for Principal Component 2')
plt.show()

 

 三、小结

本研究通过对房价数据的聚类分析,将房价数据分为了不同的类别,发现了房价的分布特征和规律。通过特征选择和标准化处理,提高了聚类分析的准确性和可靠性。使用手肘方法和轮廓系数确定了最佳的 K 值,为聚类分析提供了科学依据。通过 PCA 进行降维,可视化了主成分,进一步深入了解了房价数据的内在结构。本研究的结果对于购房者、房地产开发商、政府部门等都具有重要的参考价值,可以为相关决策提供科学依据。

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/704835.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android低代码开发 - 直接创建一个下拉刷新列表界面

看了我Android低代码开发 - 让IDE帮你写代码这篇文章的小伙伴,大概都对Dora全家桶开发框架有基本的认识了吧。本篇文章将会讲解如何使用dora-studio-plugin快捷创建一个下拉刷新列表界面。 效果演示 这样直接通过图形界面的方式就创建好了下拉刷新上拉加载空态界面…

如何高效管理和监控 Elasticsearch 别名及索引?

0、引言 在 Elasticsearch 项目中,管理和监控索引是开发者的一项重要任务。 尤其是当我们需要在项目的管理部分展示索引和别名的统计信息时,了解如何有效地列出这些别名和索引显得尤为重要。 本篇博客将介绍几种在 Elasticsearch 中列出别名和索引的方法…

用表头设置控制表格内列的排序和显示隐藏

项目背景 : react ant 需求 : 点击表头设置弹窗 , 拖拽可控制外部表格列的排序 , 开关可控制外部表格列的显示和隐藏 实现效果如下 :注意 : 1. 拖拽效果参考了ant-table中的拖拽效果(这块代码放最后) 2. 后台反了json格式(用is_show控制显示和隐藏 , 我给他传…

【应用案例】如何解决无人驾驶车辆的动力转向问题

埃尔朗根-纽伦堡大学名称为高能赛车运动队(High-Octane Motorsports e.V.)的学生方程式车队都设计、构建和制造具有创新意义且独特的赛车。然后,他们将参加三种不同类别的大学生方程式比赛;该项赛事中的参赛队伍来自于世界各地。 电动、无人驾驶和燃油车…

17.路由配置与页面创建

路由配置与页面创建 官网:https://router.vuejs.org/zh/ Vue Router 和 组合式 API | Vue Router (vuejs.org) 1. 修改index.ts import { RouteRecordRaw, createRouter, createWebHistory } from "vue-router"; import Layout from /layout/Index.vueco…

python长方形周长面积 2024年3月青少年编程电子学会python编程等级考试二级真题解析

目录 python长方形周长面积 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序代码 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python长方形周长面积 2024年3月 python编程等级考试级编程题 一、…

linux系统宝塔服务器temp文件夹里总是被上传病毒php脚本

目录 简介 上传过程 修复上传漏洞 tmp文件夹总是被上传病毒文件如下图: 简介 服务器时不时的会发送短信说你服务器有病毒, 找到了这个tmp文件, 删除了之后又有了。 确实是有很多人就这么无聊, 每天都攻击你的服务器。 找了很久的原因, 网上也提供了一大堆方法,…

天锐绿盾 | 无感知加密软件、透明加密系统、数据防泄漏软件

摘要:文件加密软件,包含禁止非授权的文件泄密和抄袭复制解决方案即使被复制泄密都是自动加密无法阅读,透明加密,反复制软件,内网监控,文件加密,网络安全方案,透明文件加密,加密文件,图纸加密,知识产权保护,加密数据; 通过绿盾信息安全管理软件,系统在不改…

2024/06/13--代码随想录算法2/17| 62.不同路径、63. 不同路径 II、343. 整数拆分 (可跳过)、96.不同的二叉搜索树 (可跳过)

62.不同路径 力扣链接 动态规划5步曲 确定dp数组(dp table)以及下标的含义: dp[i][j] :表示从(0 ,0)出发,到(i, j) 有dp[i][j]条不同的路径。确定递推公式,dp[i][j] d…

Java——递归

一、递归介绍 1、什么是递归 递归在Java编程中是指一个方法调用自身的编程技巧。 public static void foo() {//...foo();//方法调用自身//...} 2、递归用于什么场景 递归是一种常见的算法设计方法,特别适用于解决那些可以分解为相似子问题的问题。常见的递归问…

诺派克ROPEX控制器维修RES-5008 RES-5006

德国希尔科诺派克ROPEX热封控制器维修型号包括:RES-401,RES-402,RES-403,RES-406,RES-407,RES-408,RES-409,RES-420,RES-440,RES-5008,RES-5006&a…

阿里三面:Redis大key怎么处理?

阿里三面:Redis大key怎么处理? 一、什么是大key? 首先大key不是key很大而是key对应的value值很大,一般而言如果String类型值大于10KB,Hash,Set,Zset,List类型的元素的个数大于5000个都可以称之…

18. 《C语言》——【Nice2016年校招笔试题引发的思考】

亲爱的读者,大家好!我是一名正在学习编程的高校生。在这个博客里,我将和大家一起探讨编程技巧、分享实用工具,并交流学习心得。希望通过我的博客,你能学到有用的知识,提高自己的技能,成为一名优…

中国版Sora?快手「可灵」到底行不行?

“可灵”与Sora有相似的技术架构,生成的视频动作流畅、幅度大,对物理世界理解力与还原度很高。可生成120秒、每秒30帧的高清视频,分辨率高达1080p,并且支持多种不同的屏幕比例。 “中国版SORA”到底是不是名副其实?能…

谷歌浏览器124版本Webdriver驱动下载

查看谷歌浏览器版本 在浏览器的地址栏输入: chrome://version/回车后即可查看到对应版本(不要点击帮助-关于Google chrome,因为点击后会自动更新谷歌版本) 114之前版本:下载链接 ​​​​​​123以后版本:下载链接&#xff0…

【机器学习】通用大模型VS垂直大模型,你更加青睐哪一方?

目录 前言AI大模型的战场:通用与垂直的分化通用大模型:广泛适用的利器垂直大模型:深入领域的利器谁能够形成绝对优势?结语通用大模型文章推荐 前言 AI大模型的战场正在分化: 通用大模型在落地场景更广泛毋庸置疑&…

idea插件开发之实现设置信息持久化存储

写在前面 在idea中设置的信息,我们重启idea后,这些信息还是在的,这其实是通过idea插件的持久化存储功能实现的,本文一起来看下如何实现。 1:正戏 为了方便测试,首先定义如下的ui: 我们需要在代码中给按…

干货分享:宏集物联网HMI通过S7 MPI协议采集西门子400PLC数据

前言 为了实现和西门子PLC的数据交互,宏集物联网HMI集成了S7 PPI、S7 MPI、S7 Optimized、S7 ETH等多个驱动来适配西门子200、300、400、1200、1500、LOGO等系列PLC。 本文主要介绍宏集HMI通过S7 MPI协议采集西门子400PLC数据的操作步骤,其他协议的操作…

C++入门 string的模拟实现

目录 再谈swap string常见接口模拟实现 构造函数 & 析构函数 拷贝构造 & 赋值运算符重载 begin迭代器 & end迭代器 size & swap & clear & c_str operator[ ] & reserve push_back & append operator & find insert & erase…

计算机网络之网络层知识总结

网络层功能概述 主要任务 主要任务是把分组从源端传到目的端,为分组交换网上的不同主机提供通信服务。网络层传输单位是数据报。 分组和数据报的关系:把数据报进行切割之后,就是分组。 主要功能: 路由选择与分组转发 路由器…