Python采集二手车数据信息实现数据可视化展示

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

环境使用:

  • Python 3.10

  • Pycharm

模块使用:

  • requests >>> pip install requests

  • csv

数据可视化:

  • pandas >>> pip install pandas

  • pyecharts >>> pip install pyecharts

爬虫实现基本流程

你要获取什么数据 -> 你要获取的数据在哪?

一. 数据来源分析
  1. 明确需求

    明确采集的网站以及数据内容

    网址: https://changsha.yiche.taocheche.com/buycar/pges9bxcdzaoqtrnml/

    数据: 车辆信息: 车型 价格 公里数 城市…

  2. 抓包分析

    通过浏览器开发者工具进行分析, 我们想要的数据内容可以请求那个网站能够得到

    • 打开开发者工具

      F12 / 右键点击检查选择network (网络)

    • 刷新网页

      让网页的数据内容重新加载一遍 (才能在开发者中看到对应数据包)

    • 通过关键字搜索找到对应数据包位置

    • 数据包地址: https://proconsumer.taocheche.com/c-car-consumer/carsource/getUcarLo
      calList

二. 代码实现步骤

导入模块

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv
  1. 保存数据

    保存表格文件: csv / Excel

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '品牌',
    '车型',
    '年份',
    '里程',
    '城市',
    '售价',
    '首付',
])
csv_writer.writeheader()
  1. 发送请求

    模拟浏览器对于url地址发送请求

    • 模拟浏览器: 一种简单反反爬手段 (字典)

      可以直接在开发者工具中复制 -> 点击数据包 -> 标头(headers) -> 请求标头(request
      headers) -> User-Agent (UA)

    • 请求网址

    • 发送请求

      请求方法: GET / POST

      GET: 是向服务器获取数据

      POST: 是需要向服务器提交表单参数

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 模拟浏览器
headers = {
    # User-Agent 用户代理, 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
# 请求网址
url = 'https://proconsumer.taocheche.com/c-car-consumer/carsource/getUcarLocalList'
for page in range(1, 101):
    print(f'============正在采集第{page}页的数据内容============')
    # 请求参数
    data = {"liveSwitch":1,"terminal":40,"aggreCarSeries":0,"aggreCarbrands":0,"bangMai":"false","bangMaiChe":"false","baseScore":0,"bigArea":0,"brandId":0,"brandPro":0,"canNonLocal":2,"carAgeId":0,"carBasicId":0,"carLevel":0,"carType":0,"cityId":1301,"color":0,"commonFlag":4,"country":0,"curCity":0,"customizeSortFlag":0,"days":0,"directSaleCar":0,"distanceKm":0,"districtId":0,"drivingMileageId":0,"exhaust":0,"financialPriceHigh":0,"financialPriceLower":0,"firstPic":0,"gearBoxType":0,"highAge":0,"highDrivingMileage":0,"highPrice":0,"isAuthenticated":0,"isCarId":0,"isCheckReportJson":0,"isDealerAuthorized":0,"isDealerRecommend":0,"isExcludeYDG":0,"isJDActivity":0,"isLicensePhoto":0,"isLicensed":0,"isNeglect":0,"isNewCar":0,"isShowMr":0,"isShowRecom":0,"isVideo":0,"isWarranty":0,"level":0,"licenseCityId":0,"liveBroadcast":0,"loanFirstPayHigh":0,"loanFirstPayLower":0,"loanMonthPayHigh":0,"loanMonthPayLower":0,"loanUserid":0,"lowAge":0,"lowDrivingMileage":0,"lowPrice":0,"mainBrandId":0,"newCarHighPrice":0,"newCarLowPrice":0,"noAudit":"false","notCity":0,"notUcarID":0,"orderDirection":0,"pageIndex":page,"pageSize":20,"picCount":0,"price":0,"provinceId":0,"publishTimeStatus":0,"purchaseCityId":0,"regions":"false","requestReferer":0,"requestSource":0,"returnCaryears":"false","score":0,"scorePerformance":0,"seatNumHigh":0,"seatNumLower":0,"seriesId":0,"showPosition":0,"siteIds":"5","sortBoostFlag":0,"sourceType":0,"splitFlowAlgorithm":"","startNum":0,"supperiorId":0,"uCarID":0,"uCarStatus":"1","useBlackUserList":"false","userID":0,"userType":1001,"warrantyType":0}
    # 发送请求
    response = requests.post(url=url, json=data, headers=headers)
  1. 获取数据

    获取服务器返回响应数据

    • response.text

      获取响应文本数据 (字符串)

    • response.json()

      获取响应json数据 (字典) 必须是完整json数据格式

    • response.content

      获取响应二进制数据 常用于保存数据 (图片 / 音频 / 视频 / 特定格式文件…)

    json_data = response.json()
  1. 解析数据

    根据第二步: 获取响应数据 -> 返回字典数据类型

    提取数据: 根据键值对取值即可

    # 提取车辆信息所对应列表 dataList
    dataList = json_data['data']['uCarBasicInfoList']['dataList']
    # for循环遍历, 提取列表里面每个元素
    for index in dataList:
        # 提取具体车辆信息内容, 保存字典里面
        # dit 自定义变量名 (取昵称)
        dit = {
            '标题': index['showShortTitle'],
            '品牌': index['mainBrandName'],
            '车型': index['serialName'].replace(index['mainBrandName'], ''),
            '年份': index['buyCarYear'],
            '里程': index['drivingMileageText'].replace('万公里', ''),
            '城市': index['purchaseCityName'],
            '售价': index['activityPrice'],
            '首付': index['loanFirstPayText'].replace('万', ''),
        }
        csv_writer.writerow(dit)
        print(dit)

数据可视化

一般用 jupyter 进行写代码

  • jupyter notebook

    如果你安装的anaconda自带

    如果你安装的python, 则需要在cmd中安装jupyter

    pip install jupyter notebook

import pandas as pd
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
df = pd.read_csv('data.csv')
df.head()
  • 可视化官方文档: https://gallery.pyecharts.org/#/README
'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['品牌'].value_counts().index.to_list()
num = df['品牌'].value_counts().to_list()
# 图形配置
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                info, # 数据
                num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        # 标题
        title_opts=opts.TitleOpts(title="二手车品牌占比分布情况"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    # 保存可视化效果 为 html文件
    # .render("pie_scroll_legend.html")
)
# 展示在jupyter 上面
c.load_javascript()
c.render_notebook()

# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['城市'].value_counts().index.to_list()[:10]
num = df['城市'].value_counts().to_list()[:10]
# 图形配置
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                info, # 数据
                num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        # 标题
        title_opts=opts.TitleOpts(title="二手车Top10城市占比分布情况"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    # 保存可视化效果 为 html文件
    # .render("pie_scroll_legend.html")
)
c.render_notebook()

# 导入配置项目
from pyecharts import options as opts
# 导入饼图
from pyecharts.charts import Pie
# 导入随机生成数据
from pyecharts.faker import Faker
info = df['车型'].value_counts().index.to_list()[:10]
num = df['车型'].value_counts().to_list()[:10]
# 图形配置
c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(
                info, # 数据
                num,
            )
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        # 标题
        title_opts=opts.TitleOpts(title="二手车Top10车型占比分布情况"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    # 保存可视化效果 为 html文件
    # .render("pie_scroll_legend.html")
)
c.render_notebook()

'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.faker import Faker
info = df['车型'].value_counts().index.to_list()[:10]
num = df['车型'].value_counts().to_list()[:10]

c = (
    Line()
    .add_xaxis(info)
    .add_yaxis("车型", num, is_connect_nones=True)
    .set_global_opts(title_opts=opts.TitleOpts(title="二手车Top10车型折线图"))
    # .render("line_connect_null.html")
)
c.render_notebook()

如果文章看不懂,我还准备了视频教程,同样文末名片获取噢~

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/412805.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【前后端的那些事】文件上传组件封装

文章目录 效果前端代码后端代码组件封装 效果 前端代码 /views/file/file.vue <template><el-row><el-uploadv-model:file-list"fileList"class"upload-demo"multiple:auto-upload"false":on-preview"handlePreview"…

与Sora一样能生成视频、图像,还能一次解读100万数据!

大语言模型&#xff08;LLM&#xff09;在生成文本内容方面非常强&#xff0c;但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后&#xff0c;让人们意识到未来主流模型一定是文本音频图像视频的多模态生成、理解功能。 因此&#xff0c;加州大学伯克利分校的…

linux下查看某个命令在哪里个安装包程序下,以ifconfig命令举例子

yum list | grep net-tools &#xff08;查看yum安装列表中有没有安装指定的软件工具&#xff09;

用 SIL 和 PIL 仿真测试生成的代码

目录 PIL 的目标连接配置 对顶层模型运行 SIL 或 PIL 仿真 对 Model 模块运行 SIL 或 PIL 仿真 SIL 或 PIL 模块仿真 硬件实现设置 使用软件在环 (SIL) 和处理器在环 (PIL) 仿真,测试模型组件与从组件生成的生产代码之间的数字等效性。 使用 SIL 仿真,在您的开发…

JAVA高并发——Future模式

文章目录 1、Future模式解析2、Future模式的主要参与者3、Future模式的简单实现4、JDK中的Future模式5、Guava对Future模式的支持 1、Future模式解析 Future模式是多线程开发中非常常见的一种设计模式&#xff0c;它的核心思想是异步调用。当我们需要调用一个函数时&#xff0…

GaussDB SQL调优:选择合适的分布列

一、背景 GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库&#xff0c;该产品具备企业级复杂事务混合负载能力&#xff0c;同时支持优异的分布式事务&#xff0c;同城跨AZ部署&#xff0c;数据0丢失&#xff0c;支持1000扩展能力&#xff0c;PB级海量存储等企业级数…

王栎鑫前妻晒情侣装,疑与糊糊复合?网友:真的假的

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 吴雅婷元宵晒情侣装&#xff0c;网友热议是否与王栎鑫复合&am…

春秋招笔试题库整理与购买-值得投资的资源

作为一位资深的IT工程师&#xff0c;我深知求职过程中的不易&#xff0c;尤其是在春秋招季节&#xff0c;竞争激烈&#xff0c;每一个环节都可能成为决定成败的关键。因此&#xff0c;我特别了一份覆盖多家知名企业的秋招笔试题库&#xff0c;希望能帮助到正在备战的朋友们。 这…

leetcode移动零

leetcode移动零 Given an integer array nums, move all 0’s to the end of it while maintaining the relative order of the non-zero elements. Note that you must do this in-place without making a copy of the array. Example 1: Input: nums [0,1,0,3,12] Output…

linux下gcc编译时默认是32位还是64位,怎么指定为32or64?

本来是想研究一下long的字节大小sizeof(long)&#xff0c;于是写了代码&#xff1a; #include <stdio.h> int main() {long a 10;printf("%d\n", sizeof(a));return 0; } 我当时使用的是win10系统&#xff0c;使用的是vs 2022&#xff0c;然后对以上代码进行…

@SpringBootApplication

目录 1. SpringBootApplication注解简介 2. 使用SpringBootApplication注解 3. 自定义SpringBootApplication注解 在Spring Boot中&#xff0c;SpringBootApplication是一个非常重要的注解&#xff0c;它用于开启自动配置&#xff0c;简化了我们的开发工作。本文将详细介绍这…

lv21 QT 常用控件 2

1 QT GUI 类继承简介 布局管理器 输出控件 输入控件 按钮 容器 2 按钮示例 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QCheckBox> #include <QLineEdit> #include <QPushButton>class Widget : public QWidget {Q_OBJECTpublic…

【计算机网络】DNS/ICMP协议/NAT技术

文章目录 一、DNS(Domain Name System)1.DNS背景2.域名3.浏览器中输入url后,发生的事情 二、ICMP协议1.什么是ICMP协议2.ICM功能3.ICMP的报文格式4.ping命令5.traceroute命令 三、NAT技术1.NAT技术背景2.NAT IP转换过程3.NAPT4.NAT技术的缺陷5.NAT和代理服务器 四、TCP/IP五层模…

电脑缺失XInput1_4.dll文件的解决办法

在电脑操作中&#xff0c;有用户遇到了XInput1_4.dll文件缺失的问题&#xff0c;导致一些依赖该文件的电脑应用无法正常运行&#xff0c;从而影响用户正常使用。接下来小编分享不同的解决方法&#xff0c;帮助用户轻松解决该问题&#xff0c;找回XInput1_4.dll文件&#xff0c;…

simple-pytest 框架使用指南

simple-pytest 框架使用指南 一、框架介绍简介框架理念&#xff1a;框架地址 二、实现功能三、目录结构四、依赖库五、启动方式六、使用教程1、快速开始1.1、创建用例&#xff1a;1.2、生成py文件1.3、运行脚本1.3.1 单个脚本运行1.3.2 全部运行 1.4 报告查看 2、功能介绍2.1、…

教育体系是什么意思

每当谈及“教育体系”&#xff0c;很多人可能会觉得它只是一个抽象、宏大的概念。但身为老师&#xff0c;我深知它与我们每个人的成长都息息相关。那么&#xff0c;这个常被提及却又略显神秘的“教育体系”究竟是什么意思呢&#xff1f; 在教育的世界里&#xff0c;我们常把“教…

JDK21 新特性

目录 1. 虚拟线程&#xff08;Virtual Threads&#xff09;2. 有序集合&#xff08;Sequenced Collections&#xff09;3. switch 的模式匹配&#xff08;Pattern Matching for switch&#xff09;4. 记录模式&#xff08;Record Patterns&#xff09;5. ZGC6. 准备禁用动态代理…

Mybatis10、动态SQL

官方文档 10.1、介绍 什么是动态SQL&#xff1a;动态SQL指的是根据不同的查询条件 , 生成不同的Sql语句. 官网描述&#xff1a;MyBatis 的强大特性之一便是它的动态 SQL。如果你有使用 JDBC 或其它类似框架的经验&#xff0c;你就能体会到根据不同条件拼接 SQL 语句的痛苦。例…

C 嵌入式系统设计模式 10:中介者模式

本书的原著为&#xff1a;《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》&#xff0c;讲解的是嵌入式系统设计模式&#xff0c;是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之三&…

【书籍分享 • 第三期】虚拟化与容器技术

文章目录 一、本书内容二、读者对象三、编辑推荐四、前言4.1 云计算技术的发展4.2 KVM、Docker4.3 本书内容简介4.4 作者简介 五、粉丝福利 一、本书内容 《虚拟化与容器技术》通过深入浅出的方式介绍KVM虚拟化技术与Docker容器技术的概念、原理及实现方法&#xff0c;内容包括…