【python实战】利用代理ip爬取Alibaba海外版数据

引言

        在跨境电商的业务场景中,数据采集是分析市场、了解竞争对手以及优化经营策略的重要环节。然而,随着越来越多企业依赖数据驱动决策,许多跨境电商平台为了保护自身数据,采取了更严格的防护措施。这些平台通过屏蔽大陆IP地址或部署复杂的反爬机制,限制了来自特定区域的访问和自动化数据抓取。对于希望获取跨境市场信息的企业来说,这些限制带来了巨大的挑战,尤其是在需要获取实时且准确的数据时,传统的爬虫技术往往面临失效的风险。

        为了解决这一问题,使用IP代理是一个行之有效的策略。代理IP能够动态分配不同区域的IP地址,使数据请求的来源看似分散,避免因短时间内过多请求而触发网站的安全机制。通过定期轮换IP并加入高匿名代理服务,可以有效防止反爬虫系统的检测,继续获取宝贵的数据。接下来我们通过一个爬虫实战来了解如何将IP代理技术集成到爬虫中。

青果网络icon-default.png?t=O83Ahttps://www.qg.net/product/proxyip.html?platform=CSDN§ion=%E4%BB%A3%E7%90%86ip&creator=Yan-%E8%8B%B1%E6%9D%B0

Alibaba海外版数据采集

        跨境电商最关注的就是进货渠道,收集某种产品的供货商信息是十分必要的手段。Alibaba近些年在深耕海外市场,是跨境电商常用的平台之一。接下来我们尝试采集Alibaba海外版的商品数据。

目标

        本次任务的目标是给定一种商品,查询它的所有供应商。在开始之前,我们先来观察一下网页结构。当我们搜索某商品的代理商时(例如laptop),它的url如下:

        可以看到IndexArea对应了供应商的视图,而SearchText的值对应了搜索的关键词,page的值对应了页面。我们继续观察,可以看到卡片对应了factory-card的类。继续观察可以得到:标题存放在card-title下的info下的detail-info的a标签中,而供应商页面在这个标签的href属性中。这些都可以使用xpath获取到。

 

代理IP获取

为什么选择青果代理IP?

 我最近一直在用的产品,也给很多朋友推荐过,体验下来的感受有几点:

1.业务成功率在同类中很高,满足数据采集需求

2.它还有IP可用性保障机制,能自动跳过不可用IP并重新分配,国内访问平均响应时间在1秒内,非常快。

3.性价比高,现提供6小时免费试用,

回到配置代理IP。我们注册好账户后,就可以进入控制台。这里需要注意,必须要实名认证后才能正常使用。

点击“代理IP,就可以选购服务了。选择全球HTTP,需要注意的是全球HTTP不能使用大陆网络访问,适合部署在自己的服务器上使用,这里由于我们要隐藏自己的IP,所以选择短效代理。其他选项大家可以根据实际情况选择。

选购完成后即可在按时业务中找到它。

选择提取工具即可获得代理IP的API链接。它的用法是:每次访问这个url就会得到一个JSO格式的IP地址。这里要注意先把自己的IP添加到白名单中。

编写爬虫

        接下来我们就可以编写爬虫代码。爬取数据的过程分为三个部分:首先我们要访问上面的API获取代理IP,之后使用这个IP访问并获取商品页面,最后我们将页面中的信息提取出来保存在本地。

首先我们定义一个函数,通过请求一个代理服务来获取一个新的代理IP,并返回该IP地址。它发送一个HTTP请求给代理服务器,返回的JSON数据中包含了代理服务器的IP地址。

def get_ip():
    res = requests.get(
        "http://share.proxy.qg.net/get?key=6B8AC36E&num=1&area=&isp=0&format=txt&seq=\r\n&distinct=false")
    res_dict = json.loads(res.text)
    return res_dict["data"][0]["server"]

        之后定义函数,使用获取到的代理IP通过requests访问目标URL,并返回页面的HTML文本。

def get_page(url, ip):
    proxies = {
        'http': ip,
        'https': ip
    }
    res = requests.get(url, proxies=proxies, headers=headers)
    return res.text

        接下来定义一个函数解析传入的HTML页面。它使用XPath查找包含供应商信息的div标签。从每个找到的factory-card中提取供应商的名称和url,并将其存储到result列表中。最终返回包含供应商信息的列表。

def parse_page(page):
    root = etree.HTML(page)
    cards = root.xpath('//div[@class="factory-card"]')
    result = []
    for card in cards:
        node = card.xpath('//div[@class="card-title"]//div[@class="info"]//div[@class="detail-info"]//a')[0]
        title = node.find('/text()')
        url = 'https:' + node.find('/@href')
        result.append({'supplier': title, 'url': url})
    return result

        最后通过函数将供应商信息写入名为suppliers.txt的文件中。每条记录包括供应商的名称和网址。

def save(text_li):
    with open('suppliers.txt', 'a', encoding='utf8') as f:
        for item in text_li:
            f.write(f"{item['supplier']};{item['url']}")

        我们在main函数中调用槐树并控制爬虫翻页。在这个函数中,首先设置要搜索的关键词以及要抓取的页数范围。然后,进入一个循环,在每一页中构造相应的URL,调用get_ip()获取代理IP,使用get_page()获取该页的HTML,接着调用parse_page()提取供应商信息,最后将这些信息通过save()函数保存到文件中。每次请求后,程序会暂停5秒以避免被目标网站封禁。

def main():
    keyword = 'laptop'
    page_end = 2
    for page in range(1, page_end + 1):
        url = f'https://www.alibaba.com/trade/search?fsb=y&page={page}&IndexArea=company_en&CatId=&SearchText={keyword}&viewtype=&tab='
        ip = get_ip()
        page = get_page(url, ip)
        text = parse_page(page)
        save(text)
        time.sleep(5)
    print('Done')

完整代码如下:

import requests
import json
from lxml import etree
import time

# 设置请求头
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0'
}

def get_ip():
    """获取代理IP"""
    res = requests.get(
        "http://share.proxy.qg.net/get?key=6B8AC36E&num=1&area=&isp=0&format=txt&seq=&distinct=false"
    )
    res_dict = json.loads(res.text)
    return res_dict["data"][0]["server"]

def get_page(url, ip):
    """通过指定的代理IP获取页面内容"""
    proxies = {
        'http': ip,
        'https': ip
    }
    res = requests.get(url, proxies=proxies, headers=headers)
    return res.text

def parse_page(page):
    """解析页面内容并提取供应商信息"""
    root = etree.HTML(page)
    cards = root.xpath('//div[@class="factory-card"]')
    result = []
    for card in cards:
        node = card.xpath('.//div[@class="card-title"]//div[@class="info"]//div[@class="detail-info"]//a')[0]
        title = node.xpath('./text()')[0]  # 修正获取标题的方法
        url = 'https:' + node.xpath('./@href')[0]  # 修正获取URL的方法
        result.append({'supplier': title, 'url': url})
    return result

def save(text_li):
    """将提取的供应商信息保存到文件中"""
    with open('suppliers.txt', 'a', encoding='utf8') as f:
        for item in text_li:
            f.write(f"{item['supplier']};{item['url']}\n")  # 添加换行符

def main():
    """主函数,执行抓取和解析过程"""
    keyword = 'laptop'
    page_end = 2  # 设置要抓取的页数
    for page in range(1, page_end + 1):
        url = f'https://www.alibaba.com/trade/search?fsb=y&page={page}&IndexArea=company_en&CatId=&SearchText={keyword}&viewtype=&tab='
        ip = get_ip()  # 获取代理IP
        page_content = get_page(url, ip)  # 获取页面内容
        text = parse_page(page_content)  # 解析页面
        save(text)  # 保存结果
        time.sleep(5)  # 暂停5秒
    print('Done')

if __name__ == '__main__':
    main()

获取数据

接下来我们启动爬虫获取数据。

运行完毕后,打开txt文档即可看到数据。

总结

        使用IP代理解决跨境电商数据采集中的挑战是非常有效的策略。通过代理技术,企业可以绕过地域性封锁和网站的反爬机制,稳定获取所需数据。像青果网络这样提供全球代理服务的企业,不仅能够帮助企业实现数据采集的顺畅进行,还提供高防御和高匿名性,确保访问安全性和隐私保护。这样的技术支持让企业能够在复杂的跨境环境中更加自如地进行市场分析与业务扩展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/900199.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

专业135+总分400+西安交通大学815869(原909)信号与系统考研经验电子信息与通信工程,真题,大纲,参考书

经过将近一年的考研复习,终于梦圆西安交大,今年专业课815(和专硕869(原909)差不多)信号与系统135,总分400,回想这一年的复习还有很多经验和大家分享,希望可以对大家复习有所帮助,少走…

Docker 与 Yocto

Yocto项目为什么需要Docker Yocto 项目并不直接依赖 Docker,但在某些情况下使用 Docker 可以为 Yocto 项目提供以下具体且实际的好处: 1. 环境一致性: Yocto 构建需要一个稳定且一致的开发环境。不同的 Linux 发行版可能会有不同的库版本、…

如何实现智能图像擦除

我们在拍照时,往往会拍到一些路人或者杂物,但是这个照片又不想删掉,那么有没有啥方法可以把照片中的特定部分给删除,然后还原这部分的原始内容呢?有些人可能会用ps,但是ps操作比较复杂并且效果还不是很好&a…

Photoshop中的混合模式公式详解

图层混合简介 图层混合(blend)顾名思义,就是把两个图层混合成一个。 最基本的混合是alpha融合(alpha compositing),这是一个遵循光的反射与透射等(简化版)物理学原理的混合方式。 各…

信号与系统学习:傅里叶级数

一、基本概念 1. 什么是傅里叶级数? 傅里叶级数是一种数学工具,可以将一个周期函数分解为一系列正弦和余弦函数(即三角函数)的和。这些正弦和余弦函数的频率是原函数的整数倍。 2. 为什么要使用傅里叶级数? 信号分…

J2学习打卡

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 ResNet50V2 import torch import torch.nn as nn import torch.nn.functional as Fclass Bottleneck(nn.Module):expansion 4def __init__(self, inplanes,…

软考(中级-软件设计师)计算机系统篇(1024)

#1024程序员节|正文# 六、树和二叉树 6.1 树的基本概念 描述结果结点的度子结点的个数树的度最大结点的度叶子结点没有子结点的结点内部结点除根结点和叶子结点外的结点父节点有子结点的结点子节点有父结点的结点兄弟节点有同一个父结点的结点层次4层 6.2 二叉树的基本概念…

AI时代LabVIEW程序员的未来出路

随着GPT等AI技术的迅速发展,AI已经能够自动完成大量的代码生成工作,这无疑给LabVIEW程序员带来了新的挑战和机遇。尽管AI能够替代部分编程工作,LabVIEW程序员依然可以通过以下几方面找到出路: 复杂系统集成: AI可以帮助…

【软考高级架构】关于分布式数据库缓存redis的知识要点汇总

一.分布式数据库的含义 分布式数据库缓存指的是在高并发的环境下,为了减轻数据库的压力和提高系统响应时间,在数据库系统和应用系统之间增加一个独立缓存系统。 二.常见的缓存技术 (1)MemCache: Memcache是一个高性能的分布式的内…

你对MySQL的having关键字了解多少?

在MySQL中,HAVING子句用于在数据分组并计算聚合函数之后,对结果进行进一步的过滤。它通常与GROUP BY子句一起使用,以根据指定的条件过滤分组。HAVING子句的作用类似于WHERE子句,但WHERE子句是在数据被聚合之前进行过滤&#xff0c…

闯关leetcode——205. Isomorphic Strings

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/isomorphic-strings/ 内容 Given two strings s and t, determine if they are isomorphic. Two strings s and t are isomorphic if the characters in s can be replaced to get t. All occur…

2021亚洲机器学习会议:面向单阶段跨域检测的域自适应YOLO(ACML2021)

原文标题:Domain Adaptive YOLO for One-Stage Cross-Domain Detection 中文标题:面向单阶段跨域检测的域自适应YOLO 1、Abstract 域转移是目标检测器在实际应用中推广的主要挑战。两级检测器的域自适应新兴技术有助于解决这个问题。然而,两级…

现场总是发生急停,很可能是PLC和设置间网络中断

如果你的现场总是发生急停,很可能是PLC和设置间网络中断,本文用一个真实案例告诉你问题背后的原因和解决方法! 这是一台生产汽车配件的机器,使用1500F的控制器连接机器人控制器,现场装置总会莫名其妙的发生急停故障。…

部署前后端分离若依项目--CentOS7Docker版

一、准备 centos7虚拟机或服务器一台 若依前后端分离项目:可在下面拉取 RuoYi-Vue: 🎉 基于SpringBoot,Spring Security,JWT,Vue & Element 的前后端分离权限管理系统,同时提供了 Vue3 的版本 二、环…

JavaEE进阶----19.<Mybatis进阶(动态SQL)>

详解动态SQL <if>标签、<trim>标签、<where>标签、<set>标签、<foreach>标签、<include>标签 & <SQL>标签 MySQL&#xff08;进阶&#xff09; 一、动态SQL 也就是SQL语句中指定的属性&#xff0c;若我们不想输入进行查询&…

查缺补漏----分组交换所需时间计算

总结以及图片来源&#xff1a;b站湖科大真题计网讲解 对于报文交换&#xff0c;路由器完整接收整个报文后&#xff0c;才能对报文进行转发。对于分组交换&#xff0c;则是将报文划为更小的分组进行传送&#xff0c;路由器边接收分组边转发分组。 报文交换&#xff1a; 分组交换…

文件上传漏洞及安全

文件上传 文件上传安全指的是攻击者通过利用上传实现后门的写入连接后门进行权限控制的安全问题&#xff0c;对于如何确保这类安全问题&#xff0c;一般会从原生态功能中的文件内容&#xff0c;文件后缀&#xff0c;文件类型等方面判断&#xff0c;但是漏洞可能不仅在本身的代码…

Java的查找算法和排序算法

Java的查找算法和排序算法 一、查找算法1. 基本查找a. 示例 2. 二分查找a. 示例 3. 插值查找4. 斐波那契查找5. 分块查找a. 示例 二、排序算法1. 冒泡排序a. 示例 2. 选择排序a. 示例 3、插入排序a. 示例 4. 快速排序&#xff08;效率最高&#xff09;a. 示例 一、查找算法 1.…

期权懂|2024年期权最新止损策略有哪些?

本期让我懂 你就懂的期权懂带大家来了解&#xff0c;2024年期权最新止损策略有哪些&#xff1f;有兴趣的朋友可以看一下。期权小懂每日分享期权知识&#xff0c;帮助期权新手及时有效地掌握即市趋势与新资讯&#xff01; 2024年期权最新止损策略有哪些&#xff1f; 一、浮亏比例…

Pandas模块之垂直或水平交错条形图

目录 df.plot() 函数Pandas模块之垂直条形图Pandas模块之水平交错条形图 df.plot() 函数 df.plot() 是 Pandas 中的一个函数&#xff0c;用于绘制数据框中的数据。它是基于 Matplotlib 库构建的&#xff0c;可以轻松地创建各种类型的图表&#xff0c;包括折线图、柱状图、散点…