7.1.4 Selenium 爬取京东商品信息实战

目录

1、实战内容

2、思路

3、分析 url

4、开始操作

1、得到 Cookies

2、访问页面,得到 response

3、解析页面

4、存入 MySQL

5、1-3步总代码


1、实战内容

爬取京东笔记本电脑商品的信息(如:价格、商品名、评论数量),存入 MySQL 中

2、思路

京东需要登录才能搜索进入,所以首先从登录页面出发,自己登录,然后等待,得到 Cookies,之后带着 Cookies 模拟访问页面,得到页面的 response,再对 response 进行分析,将分析内容存入 MySQL 中。

3、分析 url

来到 京东搜索 笔记本电脑,之后观察首页之后的几页的链接,如下:

不难发现,除了首页之外,其他链接的区别是从第四行的 page 开始,大胆猜测链接就到此即可,且规律也显而易见,就可以直接构造链接。

4、开始操作

1、得到 Cookies

from selenium import webdriver
import json, time

def get_cookie(url):
    browser = webdriver.Chrome()
    browser.get(url)    # 进入登录页面
    time.sleep(10)      # 停一段时间,自己手动登录
    cookies_dict_list = browser.get_cookies()  # 获取list的cookies
    cookies_json = json.dumps(cookies_dict_list)  # 列表转换成字符串保存
    with open('cookies.txt', 'w') as f:
        f.write(cookies_json)
    print('cookies保存成功!')
    browser.close()


if __name__ == '__main__':
    url_login = 'https://passport.jd.com/uc/login?'     # 登录页面url
    get_cookie(url_login)

之后就可看到 txt 文件中的 cookies(多个),之后模拟登录构造 cookie 时,对照其中的即可.

2、访问页面,得到 response

当 selenium 访问时,若页面是笔记本电脑页,直接进行爬取;若不是,即在登录页,构造 cookie,添加,登录;

js 语句是使页面滑倒最低端,等待数据包刷新出来,才能得到完整的页面 response(这里的 resposne 相当于使用 request 时候的 response.text );

def get_html(url):    # 此 url 为分析的笔记本电脑页面的 url
    browser = webdriver.Chrome()
    browser.get(url)
    if browser.current_url == url:
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        responses = browser.page_source
        browser.close()
        return responses
    else:
        with open('cookies.txt', 'r', encoding='utf8') as f:
            listCookies = json.loads(f.read())
        for cookie in listCookies:
            cookie_dict = {
                'domain': '.jd.com',
                'name': cookie.get('name'),
                'value': cookie.get('value'),
                "expires": '1746673777',    # 表示 cookies到期时间
                'path': '/',            # expiry必须为整数,所以使用 expires
                'httpOnly': False,
                "sameSite": "Lax",
                'Secure': False
            }
            browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入
        time.sleep(1)
        browser.get(url)
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        response = browser.page_source
        browser.close()
        return response

cookies 到期时间是用时间戳来记录的,可用工具查看时间戳(Unix timestamp)转换工具 - 在线工具

3、解析页面

这里我使用了 Xpath 的解析方法,并将结果构造成字典列表,输出。

def parse(response):
    html = etree.HTML(response)
    products_lis = html.xpath('//li[contains(@class, "gl-item")]')
    products_list = []
    for product_li in products_lis:
        product = {}
        price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')
        name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')
        comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')

        product['price'] = price[0]
        product['name'] = name[0].strip()
        product['comment'] = comment[0]
        products_list.append(product)
    print(products_list)
    print(len(products_list))

4、存入 MySQL

上述已经得到每一个商品数据的字典,所以直接对字典或字典列表进行存储即可。

参考链接:4.4 MySQL存储-CSDN博客 5.2 Ajax 数据爬取实战-CSDN博客

5、1-3步总代码

from selenium import webdriver
import json, time
from lxml import etree


def get_cookie(url):
    browser = webdriver.Chrome()
    browser.get(url)    # 进入登录页面
    time.sleep(10)      # 停一段时间,自己手动登录
    cookies_dict_list = browser.get_cookies()  # 获取list的cookies
    cookies_json = json.dumps(cookies_dict_list)  # 转换成字符串保存
    with open('cookies.txt', 'w') as f:
        f.write(cookies_json)
    print('cookies保存成功!')
    browser.close()


def get_html(url):
    browser = webdriver.Chrome()
    browser.get(url)
    if browser.current_url == url:
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        responses = browser.page_source
        browser.close()
        return responses
    else:
        with open('cookies.txt', 'r', encoding='utf8') as f:
            listCookies = json.loads(f.read())
        for cookie in listCookies:
            cookie_dict = {
                'domain': '.jd.com',
                'name': cookie.get('name'),
                'value': cookie.get('value'),
                "expires": '1746673777',
                'path': '/',
                'httpOnly': False,
                "sameSite": "Lax",
                'Secure': False
            }
            browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入
        time.sleep(1)
        browser.get(url)
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        response = browser.page_source
        browser.close()
        return response


def parse(response):
    html = etree.HTML(response)
    products_lis = html.xpath('//li[contains(@class, "gl-item")]')
    products_list = []
    for product_li in products_lis:
        product = {}
        price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')
        name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')
        comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')

        product['price'] = price[0]
        product['name'] = name[0].strip()
        product['comment'] = comment[0]
        products_list.append(product)
    print(products_list)
    print(len(products_list))


if __name__ == '__main__':
    keyword = '笔记本电脑'
    url_login = 'https://passport.jd.com/uc/login?'     # 登录页面url
    get_cookie(url_login)
    for page in range(1, 20, 2):
        base_url = f'https://search.jd.com/Search?keyword={keyword}&wq=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&pvid=222071d82c0344059f4aac713b1679b4&isList=0&page={page}'
        response = get_html(base_url)
        parse(response)

文章参考:python爬虫之使用selenium爬取京东商品信息并把数据保存至mongodb数据库_seleniu获取京东cookie-CSDN博客

 文章到此结束,本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢大家,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/527128.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

字符串匹配算法之BF与KMP算法

目录 BF算法(暴力匹配算法) KMP算法 核心思想&#xff1a; next数组 next数组的优化 BF算法(暴力匹配算法) #include <assert.h> int BF(const char* str, const char* sub) {assert(str ! NULL && sub ! NULL);if (str NULL || sub NULL){return -1;}int…

962: 括号匹配问题

【学习版】 【C语言】 【C】 #include<iostream>class MyStack { public:struct Node {char val;Node* prev;Node* next;Node(char x) :val(x), prev(NULL),next(NULL) {};};MyStack() {base new Node(0);top base;}bool empty() {return top base;}void push(int …

C++类与对象下(个人笔记)

类与对象下 1.构造函数补充1.1构造函数体赋值1.2初始化列表1.3explicit关键字 2.static成员2.1特性 3.友元3.1友元函数3.2友元类 4.内部类5.匿名对象6.拷贝对象的一些优化7.笔试题 1.构造函数补充 1.1构造函数体赋值 在创建对象时&#xff0c;编译器通过调用构造函数&#xf…

在数字化转型的背景下,如何构建高效的数据资产管理体系?

在数字化转型的大潮中&#xff0c;数据已成为企业创新发展的重要驱动力。如何高效地管理这些数据资产&#xff0c;不仅关系到企业的日常运营&#xff0c;更直接决定了企业能否在激烈的市场竞争中脱颖而出。对于企业管理者或首席信息官&#xff08;CIO&#xff09;而言&#xff…

大学英语ab级题搜题软件?分享7个支持答案和解析的工具 #笔记#其他

合理利用学习辅助工具和资料&#xff0c;可以帮助大学生更好地组织学习内容、掌握知识点和提升学术水平。 1.智能翻译官 这是一款多语言在线翻译神器&#xff0c;除了最基础的英语以外&#xff0c;还支持日语、德语、俄语、法语等几十种语言文本翻译和拍照翻译&#xff0c;并…

一文搞懂从爬楼梯到最小花费(力扣70,746)

文章目录 题目前知动态规划简介动态规划模版 爬楼梯一、思路二、解题方法三、Code 使用最小花费爬楼梯一、思路二、解题方法三、Code 总结 在计算机科学中&#xff0c;动态规划是一种强大的算法范例&#xff0c;用于解决多种优化问题。本文将介绍动态规划的核心思想&#xff0c…

积木-蓝桥每日真题

0积木 - 蓝桥云课 (lanqiao.cn) 题目描述 小明用积木搭了一个城堡。 为了方便&#xff0c;小明在搭的时候用的是一样大小的正方体积木&#xff0c;搭在了一个n行m列的方格图上&#xff0c;每个积木正好占据方格图的一个小方格。 当然&#xff0c;小明的城堡并不是平面的&#x…

2014最新AI智能系统ChatGPT网站源码+Midjourney绘画网站源码+搭建部署教程文档

一、文章前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;那么如何搭建部署AI创作ChatGPT&#xff1f;小编这里写一个详细图文教程吧。已支持…

2.SpringBoot利用Thymeleaf实现页面的展示

什么是Thymeleaf&#xff1f; Thymeleaf是一个现代服务器端Java模板引擎&#xff0c;适用于Web和独立环境&#xff0c;能够处理HTML&#xff0c;XML&#xff0c;JavaScript&#xff0c;CSS甚至纯文本。 Thymeleaf的主要目标是提供一种优雅且高度可维护的模板创建方式。为实现这…

代码审计sql注入部分函数绕过方法

目录 1.宽字节注入 2.预编译模式下的sql注入 3无法预编译的 1.3.1. like关键字 1.3.2.不能加单引号 4.相关实战实战 4.1.某个业务网站具有sql注入 4.2.梦想cms代码审计 5.相关参考资料 1.宽字节注入 <?php $dbinit_db(); $db->query("set SET NAMESgbk);…

Thonny 开发环境下使用PICO系列教程2----点亮板载灯3S后熄灭

Thonny 开发环境下使用PICO系列教程2----点亮板载灯3S后熄灭 硬件代码 硬件 链接: 官网地址 参考原理图可以发现&#xff0c;PICO板载灯连接的是GP25引脚 代码 // 板载灯点亮3秒后熄灭 import board //想要控制PICO的引脚就要引入board import time//延迟 from digitali…

【QT入门】Qt自定义控件与样式设计之QPushButton常用qss

往期回顾 【QT入门】Qt自定义控件与样式设计之qss介绍(Qt style sheet)-CSDN博客 【QT入门】 Qt自定义控件与样式设计之qss选择器-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QLineEdit的qss使用-CSDN博客 【QT入门】Qt自定义控件与样式设计之QPushButton常用qss 这里我们主…

数据结构__顺序表

概念及结构 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存储。在数组上完成数据的增删查改 需要用到数组&#xff1a;数组的绝对优势&#xff1a;下标的随机访问&#xff08;因为物理空间连续&#xff09; a[i]等…

政安晨【AIGC实践】(一):在Kaggle上部署使用Stable Diffusion

目录 简述 开始 配置 执行 安装完毕&#xff0c;一键运行 结果展示 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: 人工智能数字虚拟世界实践 希望政安晨的博客能够对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提…

2024.4.8-day12-CSS 常用样式属性和字体图标

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 作业2024.4.8-学习笔记盒子阴影文本阴影透明的vertical-align字体使用 作业 &…

2024年网络安全趋势前瞻:从AI攻击到云安全新挑战

随着2024年开展新的序幕&#xff0c;网络安全领域正面临着前所未有的挑战与机遇&#xff0c;一系列引人注目的趋势和预测逐渐浮出水面。 一、AI技术发展引发的安全问题 近年来&#xff0c;我们见证了AI技术的飞速进步&#xff0c;其中ChatGPT等引领潮流的AI服务成为公众瞩目的…

鸿蒙OS实战开发:【多设备自适应服务卡片】

介绍 服务卡片的布局和使用&#xff0c;其中卡片内容显示使用了一次开发&#xff0c;多端部署的能力实现多设备自适应。 用到了卡片扩展模块接口&#xff0c;[ohos.app.form.FormExtensionAbility] 。 卡片信息和状态等相关类型和枚举接口&#xff0c;[ohos.app.form.formInf…

C++要点细细梳理——trivial:运算符优先级、switch、临时变量默认赋值等

1. 运算符优先级 在C语言中&#xff0c;运算符的优先级决定了在表达式中各个运算符的执行顺序。当一个表达式中有多个运算符时&#xff0c;优先级高的运算符会先被计算。如果两个运算符的优先级相同&#xff0c;那么它们的结合性&#xff08;从左到右或从右到左&#xff09;会决…

【优选算法专栏】专题十六:BFS解决最短路问题(二)

本专栏内容为&#xff1a;算法学习专栏&#xff0c;分为优选算法专栏&#xff0c;贪心算法专栏&#xff0c;动态规划专栏以及递归&#xff0c;搜索与回溯算法专栏四部分。 通过本专栏的深入学习&#xff0c;你可以了解并掌握算法。 &#x1f493;博主csdn个人主页&#xff1a;小…

主从复制、数据持久化 、Redis主从集群、哨兵机制 、Redis分片集群

数据持久化 Redis、主从集群、哨兵机制 Redis分片集群 1、单点 redis 的问题2、主从复制2.1 命令传播 3、Redis的持久化3.1 AOF3.2 RDB&#xff08;默认方式&#xff09;RDB 方式&#xff1a;执行快照时&#xff0c;数据能被修改吗&#xff1f;RDB 方式总结 3.3 RDB 和 AOF 组合…