实现功能
- 数据分析
二手房价格-时间分析
二手房数量-时间分析
二手房分布-区域分析
二手房户型分析
二手房朝向分析
二手房价格-区域分析
二手房热词词云
- 房价预测
采用合适的算法模型,对模型进行评估。通过输入影响因素输出预测价格。
采用技术与框架
- MySQL(存储爬虫数据) 或者是CSV文件存储。
- requests 与 BeautifulSoup采集和解析数据。
- pyspark读取mysql数据或者CSV数据,上传到HDFS。
- pyspark获取HDFS数据,并用Pandas实现指标计算。
- pyspark.ml 进行词云分析。
- pyspark.ml 进行模型评估,通过均方根误差 (RMSE)评估。
- 保存训练模型。
- pyspark.ml 对模型就行预测房价。
实现
1. 数据采集(爬虫)
2. 数据分析与tableau可视化
3. 算法模型训练与预测
最后
源码+部署 关注公众号联系我:【Python王哪去】