python爬取京东商品信息与可视化

项目介绍:使用python爬取京东电商拿到价格店铺链接销量并做可视化

...........................................................................................................................................................

项目介绍
效果展示
全部代码

........................................................................................................................................................... 

效果展示:

...........................................................................................................................................................

 

.......................................................................................................................................................... 

价格与店铺可视化:

........................................................................................................................................................... 

.......................................................................................................................................................... 

销量与店铺可视化:

.......................................................................................................................................................... 

.......................................................................................................................................................... 

 爬取主函数:

.......................................................................................................................................................... 

import selenium.webdriver as driver
from selenium.webdriver.common.by import By
import time
from lxml import etree
import pandas

class GetData:
    """一手数据获取:前端代码"""
    def __init__(self):
        # 目标网站:京东iPhone4s搜索页面
        self.url = 'https://search.jd.com/Search?keyword=%E5%94%90%E5%8D%A1%E5%90%8A%E5%9D%A0&enc=utf-8&wq=%E5%94%90%E5%8D%A1%E5%90%8A%E5%9D%A0&pvid=31f3e974663949f39b95db6bb05ad3f8'
        # 创建浏览器
        self.edge = driver.Edge()
        # 访问指定页面
        self.edge.get(self.url)

    def take(self):
        '对页面进行操作'
        button = self.edge.find_element(By.CLASS_NAME,'weixin-icon')
        button.click()
        # 等待登录
        time.sleep(10)
        # 最终数据:目标页面代码
        self.over_data = self.edge.page_source

class Sift:
    "筛选信息"
    def __init__(self):
        # 创建GetData类获取前端代码
        geter = GetData()   # 创建
        geter.take()    # 操作
        # 最终的前端页面数据
        self.over_data = geter.over_data

    def take(self):
        # 创建xpath解析器
        html = etree.HTML(self.over_data)
        # 获取数据
        self.prices = html.xpath('//*[@id="J_goodsList"]/ul/li[*]/div/div[*]/strong/i/text()')
        self.shop = html.xpath('//*[@id="J_goodsList"]/ul/li[*]/div/div[*]/span/a/text()')
        self.shopping = html.xpath('//*[@id="J_goodsList"]/ul/li[*]/div/div[*]/span/a/@href')
        self.ping = html.xpath('/html/body/div[*]/div[*]/div[*]/div[*]/div/div[*]/ul/li[*]/div/div[*]/strong/a/text()')
        # 将网站链接手动加上https:
        for i in range(len(self.shopping)):
            data = 'https:'+self.shopping[i]
            self.shopping[i] = data
        print('数据获取成功')
    def sava(self):
        '保存'
        print('保存中...')
        # 创建数据集
        data = {'价格':self.prices,
                '店铺':self.shop,
                '店铺链接':self.shopping,
                '评论数/销量':self.ping
                }
        pd = pandas.DataFrame(data)

        # 写入文件
        pd.to_excel('JD data.xlsx',index = False)
        time.sleep(2)
        print('保存成功')


.......................................................................................................................................................... 

 flowchart LR
    A[开始] --> B[创建GetData类]
    B --> C[访问京东iPhone4s搜索页面]
    C --> D[点击微信登录]
    D --> E[等待登录10秒]
    E --> F[获取页面源代码]
    F --> G[创建Sift类]
    G --> H[解析前端页面数据]
    H --> I[获取价格信息]
    I --> J[获取店铺信息]
    J --> K[获取店铺链接]
    K --> L[获取评论数/销量]
    L --> M[保存数据为Excel]
    M --> N[结束]

.......................................................................................................................................................... 

可视化主函数:

.......................................................................................................................................................... 

import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter

# 模拟的TXT文件内容
with open("唐卡吊坠2.txt","r") as f:
    txt_data =f.read()


# 清洗数据,去除特殊字符,并分词
words = re.findall(r'[\u4e00-\u9fa5]+', txt_data)  # 仅保留汉字

# 统计词频
word_counts = Counter(words)

# 绘制词云图
font_path = '方正仿宋简体.ttf'  # 字体路径,需要根据实际情况修改
wordcloud = WordCloud(font_path=font_path, width=800, height=400, background_color='white').generate_from_frequencies(word_counts)

# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

# 绘制柱形图
common_words = word_counts.most_common(10)
labels, values = zip(*common_words)

plt.figure(figsize=(10, 5))
plt.bar(labels, values)

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像时负号'-'显示为方块的问题

plt.xlabel('Words')
plt.ylabel('Count')
plt.title('Top 10 Most Common Words')
plt.xticks(rotation=45)  # 旋转x轴标签,以便更好地显示
plt.show()

.......................................................................................................................................................... 

 flowchart LR
    A[开始] --> B[读取TXT文件内容]
    B --> C[清洗数据,去除特殊字符,并分词]
    C --> D[统计词频]
    D --> E[绘制词云图]
    E --> F[显示词云图]
    F --> G[获取最常见的10个词]
    G --> H[绘制柱形图]
    H --> I[显示柱形图]
    I --> J[结束]

.......................................................................................................................................................... 

运行函数:

.......................................................................................................................................................... 

import get
import look

class Main:
    def __init__(self):
        # 获取目标数据
        geter = get.Sift()   # 创建get.py文件中的Sift类
        geter.take()
        geter.sava()
        # 进行可视化
        layout = look.MakePlot()
        layout.make()

if __name__ == '__main__':
    Main()

.......................................................................................................................................................... 

flowchart LR
    A[开始] --> B[创建Main类]
    B --> C[创建get.py中的Sift类]
    C --> D[调用take()方法获取数据]
    D --> E[调用sava()方法保存数据]
    E --> F[创建look.py中的MakePlot类]
    F --> G[调用make()方法进行可视化]
    G --> H[结束]

...........................................................................................................................................................
总流程:

.......................................................................................................................................................... 

 获取数据:

 flowchart LR
    A[开始] --> B[创建GetData类]
    B --> C[访问京东iPhone4s搜索页面]
    C --> D[点击微信登录]
    D --> E[等待登录10秒]
    E --> F[获取页面源代码]
    F --> G[创建Sift类]
    G --> H[解析前端页面数据]
    H --> I[获取价格信息]
    I --> J[获取店铺信息]
    J --> K[获取店铺链接]
    K --> L[获取评论数/销量]
    L --> M[保存数据为Excel]
    M --> N[结束]

...........................................................................................................................................................

可视化:

...........................................................................................................................................................

 flowchart LR
    A[开始] --> B[读取TXT文件内容]
    B --> C[清洗数据,去除特殊字符,并分词]
    C --> D[统计词频]
    D --> E[绘制词云图]
    E --> F[显示词云图]
    F --> G[获取最常见的10个词]
    G --> H[绘制柱形图]
    H --> I[显示柱形图]
    I --> J[结束]

...........................................................................................................................................................

运行:

...........................................................................................................................................................

flowchart LR
    A[开始] --> B[创建Main类]
    B --> C[创建get.py中的Sift类]
    C --> D[调用take()方法获取数据]
    D --> E[调用sava()方法保存数据]
    E --> F[创建look.py中的MakePlot类]
    F --> G[调用make()方法进行可视化]
    G --> H[结束]

...........................................................................................................................................................

 Guff_hys-CSDN博客

...........................................................................................................................................................

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/545528.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CentOS7使用Docker搭建Joplin Server并实现多端同步与公网使用本地笔记

文章目录 1. 安装Docker2. 自建Joplin服务器3. 搭建Joplin Sever4. 安装cpolar内网穿透5. 创建远程连接的固定公网地址 Joplin 是一个开源的笔记工具,拥有 Windows/macOS/Linux/iOS/Android/Terminal 版本的客户端。多端同步功能是笔记工具最重要的功能,…

WP免费主题下载

免费wordpress模板下载 高端大气上档次的免费wordpress主题,首页大图全屏显示经典风格的wordpress主题。 https://www.wpniu.com/themes/289.html 免费WP主题 蓝色简洁实用的wordpress免费主题模板,免费主题资源分享给大家。 https://www.wpniu.com/…

前端导出excel 接口处理和导出处理

如果按照一般的请求方式,接口会返回如下乱码 此时,接口其实已经请求成功了,只需要对乱码进行一下处理就行 1.请求方式处理 1.1 如果是直接使用axios进行请求 axios({method: get,url: url,params: params,//需要添加responseType: blob }…

永磁同步电机无感FOC(扩展卡尔曼滤波EKF位置观测控制)

文章目录 1、前言2、扩展卡尔曼滤波器原理2.1 预测阶段(时间更新阶段)2.2 校正阶段(状态更新阶段) 3、永磁同步电机EKF的模型4、永磁同步电机EKF的无位置状态观测仿真4.1 核心模块(在滑膜、龙伯格、磁链等观测器基础上…

一个500路监控的工程项目要如何选择交换机?其实很简单

你们好,我的网工朋友。 前几天我们讲到一台交换机能带动多少网络监控摄像头,这里贴个原文链接《提问:一台交换机能带动多少个网络监控摄像头?》。 那么在构建一个拥有500路监控的庞大工程项目时,我们该如何选择合适的…

【简单讲解如何安装与配置Composer】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

代码随想录——动态规划

系列文章目录 代码随想录——回溯 代码随想录——贪心算法 代码随想录——动态规划 文章目录 系列文章目录概述简单斐波那契数***爬楼梯***使用最小花费爬楼梯不同路径不同路径 II***整数拆分***不同的二叉搜索树***普通0-1背包***分割等和子集***最后一块石头的重量 II***目标…

excel添加折线图,如何将日期作为横坐标?

就这么两列数据,想添加一个以日期为横坐标的折线图,但是出来的折线是这个样子,切换行/列也不行,怎么办呢? 实际上这个折线图中包括两条折线,蓝色的是日期的折线,橙色的是时间的折线,…

6.5V/1.5A线性稳压器负载瞬态响应快可调输出电压

概述 PCD3932 是一款低噪声、低压差线性稳压器 (LDO),可提供 1.5A 输出电流,最大压降仅为 160mV。该器件提供两种输出电压范围。 PCD3932 的输出电压可通过外部电阻分压器在 0.5V 至 5.5V 范围内进行调节。PCD3932 集低噪声、高 PSRR 和高输出电流能力等…

linux系统USB/IP远程共享USB设备 —— 筑梦之路

概述 USB/IP 是一个开源项目,已合入 Kernel,在 Linux 环境下可以通过使用 USB/IP 远程共享 USB 设备。 USB Client:使用USB的终端,将server共享的usb设备挂载到本地。 USB Server:分享本地的usb设备至远程。 架构原理…

YOLOv8 测试 5-2:Linux 中 Dockerfile 部署 YOLOv8 项目一键运行,Python 封装 API 接口测试

一、前言 记录时间 [2024-4-15] 系列文章简摘: Docker 学习笔记(二):在 Linux 中部署 Docker(Centos7 下安装 docker、环境配置,以及镜像简单使用) API 接口简单使用(二)…

海外媒体发稿:新加坡 Asia One VS新加坡sg雅虎

海外媒体发稿:新加坡 Asia One VS新加坡sg雅虎 新加坡:雅虎 官网:sy.yahoo.com 官网:asiaone.com/lite 亚洲第一站。是 新加坡的新闻和生活方式网站和新闻聚合器。它是 新加坡第一个纯数字 内容平台,主要为新加坡、…

【攻防世界】bug

垂直越权IP绕过文件上传 文件上传绕过&#xff1a; 1. mime检测 2. 大小写绕过 3. 等价替换&#xff08;php5&#xff0c;php3&#xff09; 4. 利用JavaScript执行php代码&#xff08;正常的php代码会被检测到&#xff0c;所以就用JavaScript来执行&#xff09; <script lan…

docker特殊问题处理3——docker-compose安装配置nacos

最近几年随着大数据和人工智能持续大热&#xff0c;容器化安装部署运维已经走进了各个中小公司&#xff0c;也得已让众多开发者能上手实际操作&#xff0c;不过说真心话&#xff0c;“万物皆可容器化”的理念越来越深入人心。 而如何使用docker-compose安装&#xff0c;配置&a…

dremio作业概括

1. Summary 属性 描述 Status 表示一个或多个作业状态。作业和状态 Total Memory 提供有关查询操作的实际成本&#xff08;以内存为单位&#xff09;的统计信息。 CPU Used 提供有关查询操作的实际成本&#xff08;CPU 处理&#xff09;的统计信息。 Query Type 表示五…

IDEA设置文件编码

全局编码&#xff1a;UTF-8 项目编码&#xff1a;UTF-8 属性文件的默认编码&#xff1a;UTF-8 自动转换成Ascii但现实原生的内容&#xff1a;勾上

An Investigation of Geographic Mapping Techniques for Internet Hosts(2001年)第一部分

下载地址:An investigation of geographic mapping techniques for internet hosts | Proceedings of the 2001 conference on Applications, technologies, architectures, and protocols for computer communications 被引次数:766 Padmanabhan V N, Subramanian L. An in…

【C++软件调试技术】C++软件开发维护过程中典型调试问题的解答与总结

目录 1、引发C软件异常的常见原因有哪些&#xff1f; 2、排查C软件异常的常用方法有哪些&#xff1f; 3、为什么要熟悉常见的异常内存地址&#xff1f; 4、调试时遇到调用IsBadReadPtr或者IsBadWritePtr引发的异常&#xff0c;该如何处理&#xff1f; 5、如何排查GDI对象泄…

极大似然估计、最大后验估计、贝叶斯估计

机器学习笔记 第一章 机器学习简介 第二章 感知机 第三章 支持向量机 第四章 朴素贝叶斯分类器 第五章 Logistic回归 第六章 线性回归和岭回归 第七章 多层感知机与反向传播【Python实例】 第八章 主成分分析【PCA降维】 第九章 隐马尔可夫模型 第十章 奇异值分解 第十一章 熵…

Flask框架——安装与第一个应用

安装 Flask是一个轻量级的Python Web框架。它是一个微型框架&#xff0c;具有灵活性和可扩展性。Flask使用Python语言编写&#xff0c;它是一个开源框架&#xff0c;使得它可以自由地使用和修改。Flask框架可以用于构建任何类型的Web应用程序&#xff0c;包括单页面应用程序、…