说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
城市住房市场的稳定与健康发展是衡量一个地区经济活力和社会福祉的重要指标之一。波士顿,作为美国东海岸的文化、教育和科技中心,其房地产市场一直备受关注。随着人口增长、经济波动以及政策调整,波士顿的房价呈现出复杂多变的趋势,这对购房者、投资者以及政策制定者提出了更高的要求——即需要准确预测房价走势,以便做出合理决策。
近年来,大数据分析和机器学习技术的飞速发展为解决复杂预测问题提供了强大工具。利用历史房价数据、经济指标、人口统计数据以及地理信息等多元数据,构建精准的房价预测模型成为了可能。然而,波士顿房价受多种因素影响,包括地理位置、教育资源、交通条件、就业机会、利率变动等,这要求预测模型必须具备高度的复杂性和适应性。
本项目旨在开发一套基于机器学习的波士顿房价预测模型。
通过提供及时准确的房价预测,增强市场参与者的信心,减少信息不对称带来的风险。帮助投资者和开发商更好地定位投资方向,引导资金流向最具潜力的地区,促进房地产市场的健康发展。
为地方政府提供数据支持,助力精准调控,平衡供需关系,防止房地产泡沫,维护社会稳定。波士顿房价预测项目不仅体现了技术的力量,更彰显了大数据和人工智能在解决社会经济问题中的巨大潜力,为推动智慧城市建设、提升民众生活质量贡献力量。
本项目通过决策树回归模型、多元线性回归模型、随机森林回归模型和LightGBM回归模型实现波士顿房价预测。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
编号 | 变量名称 | 描述 |
1 | CRIM | 城镇人均犯罪率。 |
2 | ZN | 占地面积超过2.5万平方英尺的住宅用地比例。 |
3 | INDUS | 镇上非零售商业用地的比例。 |
4 | CHAS | 查尔斯河虚拟变量(如果是河流边界则为1,否则为0)。 |
5 | NOX | 一氧化氮浓度(每千万分之几)。 |
6 | RM | 住宅平均房间数。 |
7 | AGE | 1940年前建造的自住单元比例。 |
8 | DIS | 到五个波士顿就业中心的加权距离。 |
9 | RAD | 径向高速公路可达性指数。 |
10 | TAX | 全值财产税率。 |
11 | PTRATIO | 镇上学生与教师的比例。 |
12 | B | 1000(Bk - 0.63)^2,其中Bk是城镇的黑人比例。 |
13 | LSTAT | 低收入人群比例。 |
14 | PRICE | 价格 |
数据详情如下(部分展示):
3.数据预处理
3.1 用Pandas工具查看数据
使用Pandas工具的head()方法查看前五行数据:
关键代码:
3.2数据缺失查看
使用Pandas工具的info()方法查看数据信息:
从上图可以看到,总共有14个变量,数据中无缺失值,共506条数据。
关键代码:
3.3数据描述性统计
通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。
关键代码如下:
4.探索性数据分析
4.1 PRICE变量分布直方图
用Matplotlib工具的hist()方法绘制直方图:
4.2 相关性分析
从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。
5.特征工程
5.1 建立特征数据和标签数据
关键代码如下:
5.2 数据集拆分
通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:
6.构建回归模型
主要使用决策树回归模型、多元线性回归模型、随机森林回归模型和LightGBM回归模型实现波士顿房价预测,用于目标回归。
6.1 构建模型
编号 | 模型名称 | 参数 |
1 | 决策树回归模型 | 默认参数 |
2 | random_state=123 | |
3 | 多元线性回归模型 | 默认参数 |
4 | 随机森林回归模型 | 默认参数 |
5 | random_state=42 | |
6 | LightGBM回归模型 | 默认参数 |
7 | random_state=42 |
7.模型评估
7.1评估指标及结果
评估指标主要包括R方、均方误差、解释性方差、绝对误差等等。
模型名称 | 指标名称 | 指标值 |
测试集 | ||
决策树回归模型 | R方 | 0.6876 |
均方误差 | 22.9097 | |
解释方差分 | 0.6877 | |
绝对误差 | 2.7225 | |
多元线性回归模型 | R方 | 0.6688 |
均方误差 | 24.2911 | |
解释方差分 | 0.6695 | |
绝对误差 | 3.1891 | |
随机森林回归模型 | R方 | 0.8923 |
均方误差 | 7.9015 | |
解释方差分 | 0.8927 | |
绝对误差 | 2.0395 | |
LightGBM回归模型 | R方 | 0.8863 |
均方误差 | 8.3388 | |
解释方差分 | 0.8881 | |
绝对误差 | 2.0025 |
从上表可以看出,随机森林模型和LightGBM模型在波士顿房价数据集上表现较好,达到了0.88以上。
7.2 真实值与预测值对比图
决策树回归模型:
多元线性回归模型:
随机森林回归模型:
LightGBM回归模型:
从上图可以看出随机森林模型和LightGBM模型真实值和预测值波动基本一致,模型效果良好。
7.3 特征重要性
决策树回归模型:
随机森林回归模型:
LightGBM回归模型:
8.结论与展望
综上所述,本文采用了决策树、多元线性回归、随机森林和LightGBM来构建回归模型,最终证明了随机森林模型和LightGBM模型效果良好。此模型可用于日常产品的预测。
# 本次机器学习项目实战所需的资料,项目资源如下:
# 项目说明:
# 获取方式一:
# 项目实战合集导航:
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
# 获取方式二:
链接:https://pan.baidu.com/s/10-YeAvEN-SHS1BTOlIS4ng
提取码:6rea