使用Python爬取temu商品与评论信息

【🏠作者主页】:吴秋霖
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
【🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!

1. 写在前面

  电商系列有多难,做过的小伙伴应该都非常的清楚!其中解决算法只是入场券,核心难点当然是风控系统!作者虽没有实际的业务场景,但是在研究分析与测试的过程中能够感受到强度!尤其是在对IP、账号、行为的硬控堪称为精准


分析目标

aHR0cHM6Ly93d3cudGVtdS5jb20vYmdjX2NvbW1lbnRzLmh0bWw/Z29vZHNfaWQ9NjAxMDk5NTEyMzAyNTk5Jm1hbGxfaWQ9NTAyNjE0Njg3NiZfeF9zZXNzbl9pZD0zdGF0cTA5d202JnJlZmVyX3BhZ2VfbmFtZT1nb29kcyZyZWZlcl9wYWdlX2lkPTEwMDMyXzE3MTc4MjMxMDk4NzFfeGNwc254Zng2bSZyZWZlcl9wYWdlX3NuPTEwMDMy

2. 接口分析

首先在打开网站的第一步,需要准备一个优质的IP环境,已保障网络是可以正常访问的。不然的话就会出现下面这样的情况,如下所示:

在这里插入图片描述

直接看头部参数,还是这个Anti-Content,目前作者分析大部分还有有区别的,但是一个站点基本是通用的。区别就在于是否含轨迹参与了加密,如下所示:

在这里插入图片描述

这个验证码虽然说出的不是很频繁,但是在持续抓取的道路上一定是一道坎!如下所示:

在这里插入图片描述

这里的也是一个坑,由于作者前期是采用的登录方式去调试的。导致算法没有扣全(但是能用)就去尝试抓取测试,导致账号被风控后所有页面的内容被限制浏览!如下所示:

在这里插入图片描述

3. 数据爬取

temu的网站其实从分析到扣JS算法,跟作者之前分析过的达人端流程相差无几达人端是700多位含轨迹。接下来直接搜索关键词参数,断点跟进,如下所示:

在这里插入图片描述

这里有一个关键的环境点需要补,就是referer。完整的环境头可以直接拿去使用,如下所示:

(function(global, cookie, href, ua) {
    const random = (min, max) => Math.floor(Math.random() * (max - min + 1) + min);

    const eventMap = new Map();

    class DeviceMotionEvent {}
    class DeviceOrientationEvent {}

    const documentMock = {
        cookie: cookie,
        onmousewheel: "",
        get referrer() {
            return "";
        },
        addEventListener: (e, t) => eventMap.set(e, t),
        getElementById: () => {},
        get ontouchstart() {
            return null;
        },
        get documentElement() {
            return { scrollTop: 12 };
        }
    };

    const historyMock = {
        back: () => {},
        toString: () => "function back() { [native code] }"
    };

    const localStorageMock = {
        getItem: () => null,
        setItem: () => {}
    };

    const locationMock = {
        get href() {
            return href;
        },
        get port() {
            return "";
        }
    };

    const navigatorMock = {
        hasOwnProperty: () => false,
        get languages() {
            return ["zh-CN", "zh"];
        },
        get plugins() {
            return { length: 4 };
        },
        get userAgent() {
            return ua;
        }
    };

    const screenMock = {
        get availHeight() {
            return 1040;
        },
        get availWidth() {
            return 1920;
        }
    };

    global._event_map = eventMap;
    global.DeviceMotionEvent = DeviceMotionEvent;
    global.DeviceOrientationEvent = DeviceOrientationEvent;
    global.chrome = {};
    global.document = documentMock;
    global.history = historyMock;
    global.localStorage = localStorageMock;
    global.location = locationMock;
    global.navigator = navigatorMock;
    global.outerHeight = 1040;
    global.outerWidth = 1920;
    global.screen = screenMock;

    global.history.back.toString = historyMock.toString;
    global.document.getElementById.toString = () => "native code";

})(typeof window !== "undefined" ? window : global, "{cookie}", "{href}", "{ua}");

这里JS内参数Cookie、UA、Referer采用的动态替换的方式调用传递,这样的方式更加的便捷,在Python程序中代码如何去实现?如下所示:

import execjs

# 调用JS算法示例
def generate_anti_content(cookie_str, referer, user_agent):
    try:
        with open("anti_content_temu.js", "rb") as f:
            js_code = f.read()
        node = execjs.get()
        js_code = js_code.decode("gbk", 'ignore').replace("{cookie}", cookie_str).replace("{href}", referer).replace("{ua}", user_agent)
        if cookie_str not in js_code or user_agent not in js_code:
            raise Exception("未替换成功")
        ctx = node.compile(js_code)
        return ctx.call('get_anti_content')
    except Exception as e:
        logger.error(f"生成Anti-Content失败: {e}")
        raise

目前的话我们在抓取的时候是可以不需要去登录账号的,这就很友好了。我们在控制台将Cookie信息拿出来即可,因为Cookie信息也是需要参与加密的,如下所示:

在这里插入图片描述

算法如果有问题的话在请求的时候会得到下面的错误反馈,如下所示:

{'success': False, 'error_code': 40002, 'error_msg': 'System busy! '}

还有一种情况则是账号或者参数出现风控或异常,则会出现下面的错误反馈,如下所示:

{'error_code': 406008, 'error_msg': ''}

最后,测试一下扣出来的最终算法,可以看到加上轨迹验证与核心参数之后的长度在500+,基本上就是正确的了!商品评论详情抓取测试效果如下所示:

在这里插入图片描述

JS算法的话在每一次请求都调用生成最新的。切记生成一次多次去使用!最后,作者也是测试了一下商品的评价分类,如下所示:

在这里插入图片描述

经过了十多分钟控制策略的测试,发现还是非常稳定的。未出现验证,因为咱们使用的Cookie本身就是非登录的,主要就是测试验证码弹出的风控或者强制要求登录等问题!作者也是顺带着验证了一下商品信息与搜索均是没有问题的,证明所有的接口Anti-Content的算法是通用的~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/702465.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch--Convolution Layers

文章目录 1.nn.Conv1d2.torch.nn.Conv2d()3.torch.nn.ConvTranspose1d()3.torch.nn.ConvTranspose2d() 1.nn.Conv1d torch.nn.Conv1d() 是 PyTorch 中用于定义一维卷积层的类。一维卷积层常用于处理时间序列数据或具有一维结构的数据。 构造函数 torch.nn.Conv1d() 的语法如…

【运维自动化-配置平台】如何使用云资源同步功能(腾讯云为例)

云资源同步是通过apikey去单向同步云上的主机资源和云区域信息,目前支持腾讯云和亚马逊云。主要特性 1、蓝鲸配置平台周期性的单向只读同步云主机和vpc(对应蓝鲸云区域)信息,第一次全量,后面增量 2、默认同步到主机池…

kotlin 中的数字

以下均来自官方文档: 一、整数类型 1、kotlin中内置的整数类型,有四种不同大小的类型: 类型存储大小(比特数)最小值最大值Byte8-128127Short16-3276832767Int32-2,147,483,648 (-231)2,147,483,647 (231 - 1)Long64…

图片导入AutoCAD建立草图—CAD图像导入插件

插件介绍 CAD图像导入插件可将PNG,JPG等格式图片导入到AutoCAD软件内建立图像边缘的二维线条模型。插件可以提取图像黑色或白色区域的边界,并可绘制原状边界或平滑边界两种样式。 模型说明 边界提取,黑色或白色边界的提取根据原图类型选择…

c#调用c++dll方法

添加dll文件到debug目录,c#生成的exe的相同目录 就可以直接使用了,放在构造函数里面测试

排序的时间复杂度、空间复杂度和稳定性等的比较

时间复杂度和空间复杂度我们比较熟悉,重点来看一下稳定性。 稳定性是指假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,a[i] a[j] &…

Golang 百题(实战快速掌握语法)_1

整形转字符串类型 实验介绍 本实验将展示三种方法来实现整形类型转字符串类型。 知识点 strconvfmt Itoa 函数 代码实例 Go 语言中 strconv 包的 itoa 函数输入一个 int 类型,返回转换后的字符串。下面是一个例子。 package mainimport ("fmt"&qu…

跟TED演讲学英文:Toward a new understanding of mental illness by Thomas Insel

Toward a new understanding of mental illness Link: https://www.ted.com/talks/thomas_insel_toward_a_new_understanding_of_mental_illness Speaker: Thomas Insel Date: January 2013 文章目录 Toward a new understanding of mental illnessIntroductionVocabularySum…

【C语言】联合(共用体)

目录 一、什么是联合体 二、联合类型的声明 三、联合变量的创建 四、联合的特点 五、联合体大小的计算 六、联合的应用(判断大小端) 七、联合体的优缺点 7.1 优点 7.2 缺点 一、什么是联合体 联合也是一种特殊的自定义类型。由多个不同类型的数…

测长仪的发展历程!

测长仪的发展历程可以大致分为以下几个阶段: 早期发展: 最早的测量工具主要是一些机械式测量工具,如角尺、卡钳等。 16世纪,在火炮制造中已开始使用光滑量规。 1772年和1805年,英国的J.瓦特和H.莫兹利等先后制造出利用…

Win快速删除node_modules

在Windows系统上删除 node_modules 文件夹通常是一个缓慢且耗时的过程。这主要是由于几个关键因素导致的: 主要原因 文件数量多且嵌套深: node_modules 文件夹通常包含成千上万的子文件夹和文件。由于其结构复杂,文件和文件夹往往嵌套得非常…

XXL-JOB分布式任务调度快速入门

文章目录 概念快速启动XXL-JOB调度初始化执行器项目配置执行器新增GLUE模式(Java)的任务新增BEAN模式(类形式)的任务BEAN模式(方法形式)的任务参考来源 概念 XXL-JOB是一个开源的分布式任务调度平台,它是一个轻量级、…

使用B树实现员工(人事)管理系统

1. 前言 使用B树来表示人事管理系统,其中每个节点代表一个人员,树的根节点为董事长,每个节点可以有多个子节点,表示下属。每一层代表一个等级分布。 addPerson: 添加人员功能通过查找指定上司节点,然后将新的人员作…

程序员/码农创业有多少种可能?

程序员创业,无疑是当下科技浪潮中的一股强大力量。凭借扎实的技术功底和敏锐的市场洞察力,在创业道路上展现出了无限的活力和创造力。那么,程序员创业究竟有哪些事情可以做呢?可以从技术产品的研发入手。 可以利用自己的专业知识…

分析GIS在疾病传播模型和公共卫生决策中的作用

在这个全球化日益加深的时代,疾病的跨国界传播成为全球公共卫生面临的重大挑战。地理信息科学(GIS)作为一门集成了空间数据采集、处理、分析及可视化的技术体系,在公共健康领域展现出其不可替代的价值。本文旨在深入探讨GIS如何助…

电动两轮车——电源方案

随着城镇化的发展人们的活动半径不断变宽,短交通出行方式仍能覆盖主要的范围。从主要国家核心地区的出行数据看平均通勤半径不高于15km,摩托车、电动两轮车等两轮出行方式能更好匹配日常短交通出行需求。 应用框图 通常,电动两轮车由三部分…

3D gaussian-splatting项目环境配置记录

1.前景 项目论文:https://arxiv.org/abs/2308.04079 GitHub项目下载地址:https://github.com/graphdeco-inria/gaussian-splatting git clone时里面的子模块小项目会git不到,需要单独github下来,放入相应文件夹。 sibr_viewer…

C# WinForm —— 33 ContextMenuStrip介绍

1. 简介 右键某个控件/窗体时,弹出来的菜单,比如VS中右键窗体,弹出来的这个菜单: 和MenuStrip类似,ContextMenuStrip主菜单下面可以有子菜单,子菜单下面可以有下一级子菜单 2. 属性 和MenuStrip一样 …

第6章 应用层

考纲内容 (一)网络应用模型 客户/服务器模型;P2P模型 (二)域名系统(DNS) 层次域名空间;域名服务器;域名解析过程 (三)文件传输协议(FTP) …

升级和维护老旧LabVIEW程序

在升级老旧LabVIEW程序至64位环境时,需要解决兼容性、性能和稳定性等问题。本文从软件升级、硬件兼容性、程序优化、故障修复等多个角度详细分析。具体包括64位迁移注意事项、修复页面跳转崩溃、解决关闭程序后残留进程的问题,确保程序在新环境中的平稳运…