【python】python懂车帝数据可视化(代码+报告)

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


python懂车帝数据可视化(代码+报告)


目录

  • python懂车帝数据可视化(代码+报告)
  • 一、研究背景
  • 二、研究目的
  • 三、数据采集过程
    • 3.1 反爬情况
    • 3.2 爬取过程
  • 四、数据展示
    • 4.1 数据预处理
    • 4.2 数据可视化


一、研究背景

在当今社会,汽车已经成为人们生活中不可或缺的一部分,而汽车的购车决策往往受到各种因素的影响。为了更好地了解市场上不同汽车的价格分布情况,以及为购车者提供更全面的信息,我们对懂车帝网站上的汽车数据进行了深入研究和分析。该数据包含了各种品牌和型号的汽车,涵盖了最低价、最高价等关键信息,为我们提供了一个全面洞察汽车市场的机会。

总体而言,通过对懂车帝网站上爬取的汽车数据进行综合分析,我们有望揭示汽车市场中价格的分布特征,为购车者提供更为全面的参考,为汽车制造商提供更为明智的市场定价策略,促使汽车市场更好地满足消费者需求,推动整个行业的可持续发展。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇


二、研究目的

本研究的目的在于深入分析懂车帝网站上的汽车数据,主要关注汽车的最低价和最高价这两个关键指标。通过对这些价格数据的综合研究,我们旨在揭示不同汽车在市场上的价格分布情况,以及探究价格背后可能存在的因素。具体而言,我们的研究目的包括以下几个方面

首先,我们旨在了解不同汽车型号的最低价和最高价的分布特征。通过对这两个关键价格指标的统计学分析,我们可以得知市场上汽车价格的整体水平和波动情况。这有助于消费者更全面地了解不同车型在价格上的差异,为购车决策提供更为明智的依据。

其次,我们将通过分析最低价和最高价的最大、最小、中位数和方差等统计指标,揭示价格分布的规律。通过了解价格的最大值和最小值,我们可以确定市场上价格最高和最低的汽车型号,为购车者提供关键信息。同时,中位数和方差的分析将揭示价格的中间趋势和波动幅度,有助于我们更全面地了解市场的价格变化趋势。


三、数据采集过程

3.1 反爬情况

从提供的代码中,虽然没有直接看到网站反爬虫的措施,但我们可以根据代码的一些特征和编写方式来进行分析。以下是一些可能的反爬情况的分析

1. UserAgent头部
代码中设置了请求头的UserAgent字段,模拟了浏览器访问,这是常见的反爬手段。一些网站会检测UserAgent,如果发现是爬虫或非正常浏览器访问,可能会限制或拒绝访问。


headers = {
    "UserAgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

2. IP封锁或限制
在较为严格的反爬情况下,网站可能会对请求的IP地址进行监控。频繁的大量请求可能导致IP被封锁或限制访问。为了规避这种情况,可以考虑使用代理池,轮换IP进行请求。

3. 请求频率控制
代码中没有显式的设置请求频率控制,但在实际爬取中,为了规避被反爬,建议合理控制请求频率,避免短时间内发送过多请求。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

3.2 爬取过程

这段爬取数据的代码主要包括两个Python脚本懂车帝爬虫.py 和 懂车帝可视化.py。首先,我们来分析懂车帝爬虫.py中的数据爬取过程

1. 爬取数据源
使用requests库向懂车帝网站发送HTTP请求,模拟浏览器访问行为。
通过json()方法解析HTTP响应,获取JSON格式的汽车信息数据。

url = f"https://www.dongchedi.com/motor/pc/car/rank_data?aid=1839&app_name=auto_web_pc&city_name=%E5%8C%97%E4%BA%AC&count=10&offset={i}&month=202311&new_energy_type=&rank_data_type=11&brand_id=&price=&manufacturer=&outter_detail_type=&nation=0"
response = requests.get(url=url, headers=headers)
cars_msg = response.json()["data"]["list"]

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 数据提取
使用for循环遍历每一组汽车信息,提取车名、图片链接、最低价、最高价、品牌等关键信息。
将提取的信息以列表形式存储在car列表中。

for message in cars_msg:
    car_name = message["series_name"]  # 车名
    car_img = message["image"]  # 图片链接
    car_price_lower, car_price_upper = message["price"].split("万")[0].split("")  # 最低/高价
    car_brand = message["sub_brand_name"]  # 商标名称
    car.append([car_name, car_brand, car_price_lower, car_price_upper, car_img])

3. 数据保存
将爬取的汽车信息以CSV格式保存在名为data.csv的文件中。

with open('data.csv', 'w', newline='') as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerows(car)

四、数据展示

4.1 数据预处理

包括处理异常值、缺失值以及计算最高价和最低价之差。不过,如果需要进一步的数据预处理,可以考虑以下几个方面:
数据类型转换:
确保价格列(最低价和最高价)的数据类型为数值型,以便进行后续的统计和可视化操作。

#将最低价和最高价转换为数值型
data['最低价'] = pd.to_numeric(data['最低价'], errors='coerce')
data['最高价'] = pd.to_numeric(data['最高价'], errors='coerce')

# 删除包含缺失值的行
data = data.dropna()
# 或者使用均值进行填充
data['最低价'].fillna(data['最低价'].mean(), inplace=True)
data['最高价'].fillna(data['最高价'].mean(), inplace=True)
其他数据清洗:
根据实际需求进行其他数据清洗操作,比如去除重复值、转换日期格式等。

# 去除重复值
data = data.drop_duplicates()

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

4.2 数据可视化

可视化部分的代码主要使用了matplotlib和wordcloud库,涵盖了柱状图、折线图、饼状图以及词云图的绘制。下面对每个可视化部分进行分析

  1. 柱状图最低价前十名和最高价前十名
    使用plt.bar函数分别绘制了最低价和最高价前十名的柱状图,通过颜色的选择使得图表更加直观。图表的横轴为车名,纵轴为价格。这样的柱状图清晰地展示了最低价和最高价的排名前十的车型,方便用户对价格的比较。

在这里插入图片描述
在这里插入图片描述

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

2. 折线图品牌 vs 最高价
使用plt.plot函数绘制了品牌与最高价的折线图,通过标明不同品牌,观察它们在最高价上的分布情况。这样的折线图有助于观察品牌之间的价格趋势。

在这里插入图片描述

3. 饼状图品牌占比
使用plt.pie函数绘制了品牌占比的饼状图,通过颜色和标签的搭配,直观地展示了不同品牌在数据集中的占比情况。

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

在这里插入图片描述

4. 词云图车名词云
使用WordCloud库绘制了车名的词云图。通过将车名的频次转化为图形展示,可以更形象地反映出车名的分布情况。
在这里插入图片描述

👇👇👇 关注公众号,回复 “二手车可视化” 获取源码👇👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/422179.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

select,poll和epoll有什么区别

它们都是NIO中多路复用的三种实现机制,是由linux操作系统提供的。 用户空间和内核空间:操作系统为了保证系统安全,将内核分为两个部分,一个是用户空间,一个是内核空间。用户空间不能直接访问底层的硬件设备&#xff0…

qt 5.15版本安装

1.qt5.15版本安装 2.安装慢时,切换到清华镜像源:.\qt-unified-windows-x64-online.exe --mirror https://mirrors.tuna.tsinghua.edu.cn/qt/ 3.没有qt 5.15版本在旁边进行筛选,只选archive

【多线程】CAS详解

目录 🌴什么是 CAS🌸CAS 伪代码 🎍CAS 是怎么实现的🍀CAS 有哪些应⽤🌸实现原子类🌸实现自旋锁 🌳CAS 的 ABA 问题🌸**什么是 ABA 问题**?🌸ABA 问题引来的 B…

你心中的韩剧TOP1是哪一部

关注公众号:萌番bilfun,发送影片名称,即可获取资源链接 【2024最新韩剧来袭,准备好迎接心灵的震撼了吗?】 韩剧迷们,你们期待已久的2024最新韩剧终于来了!准备好迎接心灵的震撼了吗&#xff1f…

【嵌入式学习】网络编程day03.02

一、项目 1、TCP机械臂测试 #include <myhead.h> #define SER_IP "192.168.126.32" #define SER_PORT 8888 #define CER_IP "192.168.126.42" #define CER_PORT 9891 int main(int argc, const char *argv[]) {int wfd-1;//创建套接字if((wfdsocke…

【PyTorch】成功解决AttributeError: ‘Tuple‘ object has no attribute ‘cuda‘

【PyTorch】成功解决AttributeError: ‘Tuple‘ object has no attribute ‘cuda‘ &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&…

Vue.js大师: 构建动态Web应用的全面指南

VUE ECMAScript介绍什么是ECMAScriptECMAScript 和 JavaScript 的关系ECMAScript 6 简介 ES6新特性let基本使用const不定参数箭头函数对象简写模块化导出导入a.jsb.jsmain.js Vue简介MVVM 模式的实现者——双向数据绑定模式 Vue环境搭建在页面引入vue的js文件即可。创建div元素…

分享Selenium测试工具用来模拟用户浏览器的操作

执行JS的类库&#xff1a;execjs&#xff0c;PyV8&#xff0c;selenium&#xff0c;node pip list pip install selenium pip install xlrd pip install xlwt pip install PyExecJS pip install xlutils selenium测试工具可以用来模拟用户浏览器的操作&#xff0c;其支持的浏览…

ssm172旅行社管理系统的设计与实现

** &#x1f345;点赞收藏关注 → 私信领取本源代码、数据库&#x1f345; 本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目希望你能有所收获&#xff0c;少走一些弯路。&#x1f345;关注我不迷路&#x1f345;** 一 、设计说明 1.1 研究…

【InternLM 笔记】使用InternStudio 体验书生·浦语2-chat-1.8b随记

书生浦语2-chat-1.8b 介绍 书生浦语-1.8B (InternLM2-1.8B) 是第二代浦语模型系列的18亿参数版本。为了方便用户使用和研究&#xff0c;书生浦语-1.8B (InternLM2-1.8B) 共有三个版本的开源模型&#xff0c;他们分别是&#xff1a; InternLM2-1.8B: 具有高质量和高适应灵活性…

CSP-201712-2-游戏

CSP-201712-2-游戏 解题思路 初始化变量&#xff1a;定义整数变量n和k&#xff0c;分别用来存储小朋友的总数和淘汰的特定数字。然后定义了num&#xff08;用来记录当前报的数&#xff09;和peopleIndex&#xff08;用来记录当前报数的小朋友的索引&#xff09;。 初始化小朋…

什么是VR虚拟社区|VR元宇宙平台|VR主题馆加盟

VR虚拟社区是指一种基于虚拟现实技术构建的在线社交平台或环境&#xff0c;用户可以在其中创建虚拟化的个人形象&#xff08;也称为avatars&#xff09;并与其他用户进行交流、互动和合作。在VR虚拟社区中&#xff0c;用户可以选择不同的虚拟场景和环境&#xff0c;如虚拟公园、…

autocrlf和safecrlf

git远程拉取及提交代码&#xff0c;windows和linux平台换行符转换问题&#xff0c;用以下两行命令进行配置&#xff1a; git config --global core.autocrlf false git config --global core.safecrlf true CRLF是windows平台下的换行符&#xff0c;LF是linux平台下的换行符。…

揭示 Wasserstein 生成对抗网络的潜力:生成建模的新范式

导 读 Wasserstein 生成对抗网络 (WGAN) 作为一项关键创新而出现&#xff0c;解决了经常困扰传统生成对抗网络 (GAN) 的稳定性和收敛性的基本挑战。 由 Arjovsky 等人于2017 年提出&#xff0c;WGAN 通过利用 Wasserstein 距离彻底改变了生成模型的训练&#xff0c;提供了一个…

如何在群晖Docker运行本地聊天机器人并结合内网穿透发布到公网访问

文章目录 1. 拉取相关的Docker镜像2. 运行Ollama 镜像3. 运行Chatbot Ollama镜像4. 本地访问5. 群晖安装Cpolar6. 配置公网地址7. 公网访问8. 固定公网地址 随着ChatGPT 和open Sora 的热度剧增,大语言模型时代,开启了AI新篇章,大语言模型的应用非常广泛&#xff0c;包括聊天机…

Tokenize Anything via Prompting论文解读

文章目录 前言一、摘要二、引言三、模型结构图解读四、相关研究1、Vision Foundation Models2、Open-Vocabulary Segmentation3、Zero-shot Region Understanding 五、模型方法解读1、Promptable TokenizationPre-processingPromptable segmentationConcept predictionZero-sho…

STM32标准库开发—实时时钟(BKP+RTC)

BKP配置结构 注意事项 BKP基本操作 时钟初始化 RCC_APB1PeriphClockCmd(RCC_APB1Periph_PWR, ENABLE);RCC_APB1PeriphClockCmd(RCC_APB1Periph_BKP, ENABLE);PWR_BackupAccessCmd(ENABLE);//设置PWR_CR的DBP&#xff0c;使能对PWR以及BKP的访问读写寄存器操作 uint16_t ArrayW…

LeetCode--72

72. 编辑距离 给你两个单词 word1 和 word2&#xff0c; 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作&#xff1a; 插入一个字符删除一个字符替换一个字符 示例 1&#xff1a; 输入&#xff1a;word1 "horse", word2 …

Mysql与StarRocks语法上的不同

&#x1f413; 序言 StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理&#xff0c;可以用StarRocks 来支持多种数据分析场景的极速分析。 &#x1f413; 语法…

STL容器之string类

文章目录 STL容器之string类1、 什么是STL2、STL的六大组件3、string类3.1、string类介绍3.2、string类的常用接口说明3.2.1、string类对象的常见构造3.2.2、string类对象的容量操作3.2.3、string类对象的访问及遍历操作3.2.4、 string类对象的修改操作3.2.5、 string类非成员函…