Python爬虫实战:利用代理IP获取电商数据

文章目录

  • 1.电商数据介绍
  • 2.爬取目标
  • 3.代理IP推荐
  • 4.准备工作
    • 4.1 模块安装
    • 4.2 代理IP获取
  • 5.爬虫代码实战
    • 5.1分析网页
      • 5.1.1 获取cookie
      • 5.1.2 关键词分析
      • 5.1.3 翻页分析
      • 5.1.4 数据获取分析
    • 5.2 发送请求
    • 5.3 提取数据
    • 5.4 保存数据
    • 5.5 完整源码
    • 5.6 数据分析
    • 六、总结

1.电商数据介绍

● 电商数据对于了解用户行为、优化营销策略、提高转化率等方面具有重要作用。

●通过分析用户数据,企业可以找到目标用户,精准投放广告和推广活动,有效提高广告的转化率和投资回报率。

●电商数据还可以用于个性化推荐、营销活动优化、供应链管理等场景,帮助企业提升用户体验和运营效率。

2.爬取目标

本次博主爬取的目标是某东,代码实现输入关键词后翻页获取相关的商品信息,如:标题、价格、评论数、商铺名、商品链接、店铺链接、图片链接:

3.代理IP推荐

由于电商数据量巨大,为了安全快速获取数据,博主使用的是亮数据家的代理IP,质量很高个人感觉还不错,并且可以免费使用:
亮数据代理IP免费试用

4.准备工作

4.1 模块安装

Python:3.10

编辑器:PyCharm

第三方模块,自行安装:

pip install requests # 网页数据爬取
pip install lxml # 提取网页数据
pip install pandas #写入Excel表格

4.2 代理IP获取

1、首先先免费注册一个亮数据账号:亮数据代理IP免费试用

2、选择查看代理IP产品:

3、有动态IP、静态IP、机房IP、移动代理IP可以选择,博主这里选择是机房IP:

4、配置通道,可以设置IP类型(共享/独享)、IP数、IP来源国家等等:

5、配置完成后可以看到主机、用户名和密码,等下我们添加到代码中去获取IP:

6、下面代码只需要修改刚才获取到的主机、用户名和密码,即可返回代理IP:

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒


def get_ip():
    """获取亮数据代理IP"""
    host = '你的主机' # 主机
    user_name = '你的用户名' # 用户名
    password = '你的密码' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip

5.爬虫代码实战

5.1分析网页

5.1.1 获取cookie

目前某东需要登录后才看得到数据,所以我们需要获取登录后的cookie:

5.1.2 关键词分析

只要在keyword传入我们需要获取的关键词即可:

5.1.3 翻页分析

第一页:

https://search.jd.com/Search?keyword=Python%E4%B9%A6%E7%B1%8&page=1

第二页:

https://search.jd.com/Search?keyword=Python%E4%B9%A6%E7%B1%8&page=2

可以看到是通过page进行控制翻页的。

5.1.4 数据获取分析

首先可以看到我们所需要的每个商品数据都在一个一个li标签下面:

li标签下面有我们所需要的全部数据:

数据没问题接下来我们就可以开始写代码了

5.2 发送请求

1、设置关键词和翻页拼接网页链接:

def main():
    keyword = '手机'
    page_num = 10 # 爬取的页数
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'

2、获取网页源代码,注意:下面代码需要看4.2获取并添加代理IP信息(主机、用户名和密码 )和看5.1.1添加自己的cookie

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒

def get_ip():

    host = '' # 主机
    user_name = '' # 用户名
    password = '' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip


def get_html_str(url):
    """发送请求,获取网页源码"""
    # 请求头模拟浏览器(注意这里一定添加自己已经登录的cookie才可以)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'cookie':''
    }

    # 添加代理IP(这里代理IP这里需要看`5.1 获取代理IP`自己去获取,博主的已过期)
    proxies = get_ip()
    # 添加请求头和代理IP发送请求
    response = requests.get(url,headers=headers,proxies=proxies) # 
    # 获取网页源码
    html_str = response.content.decode()
    # 返回网页源码
    return html_str


def main():
    keyword = '手机'
    page_num = 1 # 爬取的页数
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'
        print(url)
        html_str = get_html_str(url)
        print(html_str)


if __name__ == '__main__':
    main()

3、运行成功翻页网页数据:

5.3 提取数据

下面代码实现提取相关的商品信息,如:标题、价格、评论数(获取失败大家可以自行尝试一下)、商铺名、商品链接、店铺链接、图片链接:

def get_data(html_str,page, data_list):
    """提取数据写入列表"""
    # 将html字符串转换为etree对象方便后面使用xpath进行解析
    html_data = etree.HTML(html_str)
    # 利用xpath取到所有的li标签
    li_list = html_data.xpath("//ul[@class='gl-warp clearfix']/li")
    # 打印一下li标签个数
    # print(len(li_list))
    # 遍历li_list列表取到某一个商品的对象标签
    for li in li_list:
        # 标题
        try:
            title = li.xpath(".//div[@class='p-name p-name-type-2']/a/em//text()")
            title = ''.join(title)
        except:
            title = None
        # 商品链接
        try:
            goods_url = 'https:' +li.xpath(".//div[@class='p-name p-name-type-2']/a/@href")[0]
        except:
            goods_url= None
        # 价格
        try:
            price = li.xpath(".//div[@class='p-price']/strong/i/text()")[0]
        except:
            price= None
        # 评论数,有问题获取不到
        try:
            comment_num = li.xpath(".//div[@class='p-commit']/strong/a/text()")[0]
        except:
            comment_num= None
        # 店铺名
        try:
            shop = li.xpath(".//div[@class='p-shop']/span/a/text()")[0]
        except:
            shop = None
        # 店铺链接
        try:
            shop_url = 'https:' + li.xpath(".//div[@class='p-shop']/span[@class='J_im_icon']/a[@class='curr-shop hd-shopname']/@href")[0]
        except:
            shop_url = None
        # 图片链接
        try:
            img_url = 'https:' + li.xpath(".//div[@class='p-img']/a/img/@data-lazy-img")[0].replace('.avif','')
        except:
            img_url = None

        print({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})
        data_list.append({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})

运行成功:

5.4 保存数据

将获取到的数据写入Excel:

def to_excel(data_list):
    """写入Excel"""
    df = pd.DataFrame(data_list)
    df.drop_duplicates() # 删除重复数据
    df.to_excel('京东采集数据集.xlsx')

5.5 完整源码

下面完整代码需要看4.2获取并添加代理IP信息(主机、用户名和密码 )和看5.1.1添加自己的cookie,可以修改关键词和爬取的页数:

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒


def get_ip():
    """获取亮数据代理IP"""
    host = '你的主机' # 主机
    user_name = '你的用户名' # 用户名
    password = '你的密码' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip


def get_html_str(url):
    """发送请求,获取网页源码"""
    # 请求头模拟浏览器(注意这里一定添加自己已经登录的cookie才可以)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'cookie':'你的京东登录cookie'
    }

    # 添加代理IP(这里代理IP这里需要看`5.1 获取代理IP`自己去获取,博主的已过期)
    proxies = get_ip()
    # 添加请求头和代理IP发送请求
    response = requests.get(url,headers=headers,proxies=proxies) #
    # 获取网页源码
    html_str = response.content.decode()
    # 返回网页源码
    return html_str


def get_data(html_str,page, data_list):
    """提取数据写入列表"""
    # 将html字符串转换为etree对象方便后面使用xpath进行解析
    html_data = etree.HTML(html_str)
    # 利用xpath取到所有的li标签
    li_list = html_data.xpath("//ul[@class='gl-warp clearfix']/li")
    # 打印一下li标签个数
    # print(len(li_list))
    # 遍历li_list列表取到某一个商品的对象标签
    for li in li_list:
        # 标题
        try:
            title = li.xpath(".//div[@class='p-name p-name-type-2']/a/em//text()")
            title = ''.join(title)
        except:
            title = None
        # 商品链接
        try:
            goods_url = 'https:' +li.xpath(".//div[@class='p-name p-name-type-2']/a/@href")[0]
        except:
            goods_url= None
        # 价格
        try:
            price = li.xpath(".//div[@class='p-price']/strong/i/text()")[0]
        except:
            price= None
        # 评论数,有问题获取不到
        try:
            comment_num = li.xpath(".//div[@class='p-commit']/strong/a/text()")[0]
        except:
            comment_num= None
        # 店铺名
        try:
            shop = li.xpath(".//div[@class='p-shop']/span/a/text()")[0]
        except:
            shop = None
        # 店铺链接
        try:
            shop_url = 'https:' + li.xpath(".//div[@class='p-shop']/span[@class='J_im_icon']/a[@class='curr-shop hd-shopname']/@href")[0]
        except:
            shop_url = None
        # 图片链接
        try:
            img_url = 'https:' + li.xpath(".//div[@class='p-img']/a/img/@data-lazy-img")[0].replace('.avif','')
        except:
            img_url = None

        print({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})
        data_list.append({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})


def to_excel(data_list):
    """写入Excel"""
    df = pd.DataFrame(data_list)
    df.drop_duplicates() # 删除重复数据
    df.to_excel('京东采集数据集.xlsx')


def main():
    # 1. 设置爬取的关键词和页数
    keyword = '手机'
    page_num = 10 # 爬取的页数
    data_list = [] # 空列表用于存储数据
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'
        print(url)
        # 2. 获取指定页的网页源码
        html_str = get_html_str(url)
        print(html_str)
        # 3. 提取数据
        get_data(html_str,page, data_list)
        time.sleep(1)
    # 4. 写入Excel
    to_excel(data_list)


if __name__ == '__main__':
    main()

运行结果:

5.6 数据分析

博主这里获取10页数据,手机价格最多的是1099元的手机,如下图所示:

还可以分析店铺、品牌、价格分布区间等等,大家可以自行尝试。

六、总结

代理IP对于爬虫是密不可分的,但使用代理IP需要遵守相关法律法规和目标网站的使用规则,不得进行非法活动或滥用代理IP服务,亮数据家的高质量代理IP可以帮助爬虫安全采集公开数据信息,有需要代理IP的小伙伴可以试试:亮数据代理IP免费试用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/648360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海山数据库(He3DB)代理ProxySQL使用详解:(二)功能实测

读写分离实测 ProxySQL官方demo演示了三种读写分离的方式:使用不同的端口进行读写分离、使用正则表达式进行通用的读写分离、使用正则和digest进行更智能的读写分离。最后一种是针对特定业务进行的优化调整,也可将其归结为第二种方式,下边分…

紫光展锐突破创新终端品类,搭载展锐芯的全球首款二合一5G云电脑正式发布

近日,搭载紫光展锐5G芯片T760的中兴云电脑逍遥系列正式发布,亮点: 全球首款二合一5G云电脑,支持本地/云端双模式,一键切换,用户可同时享有Android平板和Windows云电脑两种形态;支持5G蜂窝网络&…

【OceanBase诊断调优】—— 排查 IO 问题的方法

本文主要介绍 OceanBase 数据库 V4.x 版本中排查 IO 问题的方法以及 IO 相关的日志和视图。 IO 相关问题 -4013 内存爆、IoControl 模块内存泄漏 目前 IO 内存爆可能的原因如下,及相应的排查方法。 其他模块使用 IO 内存后未释放导致泄漏。 日志分析。 通过关键词…

视频批量剪辑神器:一键合并多个视频,轻松添加音频,高效创作无极限!

视频已经成为我们生活中不可或缺的一部分。无论是工作汇报、生活记录,还是创意表达,视频都扮演着至关重要的角色。然而,对于很多非专业剪辑师来说,视频剪辑却是一项既繁琐又耗时的工作。别担心,今天我要给大家介绍一款…

全球AI新闻速递527

📢📢📢📣📣📣 哈喽!大家好,我是「奇点」,江湖人称 singularity。刚工作几年,想和大家一同进步🤝🤝 一位上进心十足的【Java ToB端大厂…

Mysql中的慢查询

Mysql慢查询的一些sql命令 慢查询的默认事件为10秒 #注意:慢查询一般是在调试阶段开启的,在开发阶段中一般不会开启,会对效率产生延误 #查询慢查询是否开启 show variables like %general%; #慢查询时间设置 show variables like long_query…

酷开科技相伴童年 | 酷开系统六一特辑:亲子共赏,启迪成长

六一儿童节,属于每个茁壮成长的孩子,也属于每个童心未泯的“少年”。《小王子》里说,使生活如此美丽的是我们藏起来的真诚和童心。马上就到六一儿童节了,就让我们用温柔而富有童真的笔触,唤醒那份沉睡已久的童心吧。 在…

NVIDIA Orin/Jetson 平台+数字同轴GMSL 车载AI视觉方案,应用于车载,机器人等领域

专注于成像和视觉技术于近期正式发布了可适配NVIDIA DRIVE AGX Orin平台的一系列摄像头产品,该产品是自主开发的数字同轴GMSL2摄像头模组,可满足智能汽车的高质量成像需求。 目前,推出可适配于NVIDIA DRIVE AGX Orin平台的摄像头产品一共有11…

微软改进WSL子系统 新版将支持镜像宿主机网络接口及使用外部DNS

Windows SubSystem for Linux (即 WSL) 是微软在 Windows 10/11 中开发的子系统功能,该功能允许用户在 Windows 上安装 Linux 系统和相关环境,对开发者来说可以构建 Linux 开发环境进行工作。不过 WSL 系统在功能上也有不少缺点,典型的就是默…

docker安装Elasticsearch(ES)详细教程

使用Docker来安装Elasticsearch(简称ES)的详细教程如下: 1. 前提条件 确保你的系统已经安装了Docker,并且Docker服务正在运行。如果你使用的是Windows系统,还需要确保已经启用了Hyper-V和容器功能。 2. 拉取Elastic…

Python-opencv通过距离变换提取图像骨骼

文章目录 距离变换distanceTransform函数 距离变换 如果把二值图像理解成地形,黑色表示海洋,白色表示陆地,那么陆地上任意一点,到海洋都有一个最近的距离,如下图所示,对于左侧二值图像来说,【d…

工程技术SCI期刊,中科院4区,收稿范围非常广泛,审稿快易录用!

一、期刊名称 CMES-Computer Modeling in Engineering & Sciences 二、期刊简介概况 期刊类型:SCI 学科领域:工程技术 影响因子:2.4 中科院分区:4区 三、期刊征稿范围 本期刊在工程与科学的计算机建模领域发表具有合理永…

神经网络的工程基础(一)——利用PyTorch实现梯度下降法

相关说明 这篇文章的大部分内容参考自我的新书《解构大语言模型:从线性回归到通用人工智能》,欢迎有兴趣的读者多多支持。 本文涉及到的代码链接如下:regression2chatgpt/ch06_optimizer/gradient_descent.ipynb 本文将讨论利用PyTorch实现…

力扣 第 399 场周赛 解题报告 | 珂学家 | 调和级数 + 分块DP

前言 T1. 优质数对的总数 I 题型: 签到 class Solution:def numberOfPairs(self, nums1: List[int], nums2: List[int], k: int) -> int:res 0for v1 in nums1:for v2 in nums2:if v1 % (v2 * k) 0:res 1return resT2. 压缩字符串 III 思路: 模拟 感觉引入一个栈&…

基于PHP的物业管理的设计与实现

第1章 绪论... 1 1.1 研究背景与意义... 1 1.2 国内外发展现状... 2 第2章 关键技术介绍... 3 2.1 PHP语言... 3 2.2 MySQL数据库... 3 2.3 Zend框架... 4 2.4 B/S架构... 4 第3章 系统需求分析... 5 3.1 可行性分析... 5 3.1.1 技术可行性分析... 5 3.1.2 经济可行…

解决updateByExample时属性值异常的问题(部分属性值没有使用占位符?进行占位,而是变成了属性的名称)

目录 场景简介代码片断实体类 报错信息排查原因解决测试过程解决方案 场景简介 1、程序将mybatis框架升级为3.5.9版本后执行updateByExample方法时报错 代码片断 Condition condition new Condition(MbCcsSessionConfig.class); condition.createCriteria().andEqualTo(&quo…

知识分享:隔多久查询一次网贷大数据信用报告比较好?

随着互联网金融的快速发展,越来越多的人开始接触和使用网络贷款。而在这个过程中,网贷大数据信用报告成为了评估借款人信用状况的重要依据。那么,隔多久查询一次网贷大数据信用报告比较好呢?接下来随小易大数据平台小编去看看吧。 首先&…

【Python】 Django 框架如何支持百万级日访问量

基本原理 Django 是一个高级的 Python Web 框架,它鼓励快速开发和干净、实用的设计。Django 遵循 MVC(模型-视图-控制器)设计模式,允许开发者通过编写更少的代码来构建高质量的 Web 应用程序。Django 自带了许多内置功能&#xf…

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

宏哥微信粉丝群:https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 在我们日常执行自动化测试工作的过程中,经常会遇到一些偶发性的bug,但是因为bug是偶发性的,我们不一定每次执行都能复现,所以我…

深度学习模型

深度学习模型 深度学习网络模型是人工智能领域的重要分支,它通过模拟人脑神经网络的工作方式来处理数据并识别模式。以下是对深度学习网络模型的一些主要类型的详细概述: 卷积神经网络(Convolutional Neural Network, CNN) 结构&a…