学习中...【京东价格/评论数据】数据获取方式——采用Selenium★

近期闲来无事学学selenium爬虫技术,参考崔庆才《Python3网络爬虫开发实战》的淘宝商品信息爬取,我也照猫画虎的学了京东的价格和商品评论数据。废话不多说,直接开始吧!

1. 浏览器初始化

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
import re

options = Options()
options.add_argument('--headless')  #使用无头浏览器(PhantomJS已经不支持了)
browser = webdriver.Chrome(options = options)
browser.maximize_window()  
wait = WebDriverWait(browser, 10)

注意这里的browser.maximize_window()非常重要,否则京东自己的弹窗会屏蔽掉网页自身的按钮。

2. 商品页搜索

这里我用的搜索页是京东商品搜索,页面比较简洁。

在Chrome浏览器中右键检查后可以看到

搜索商品输入框(黑框)的id是keyword

搜索商品确认框(蓝框)的class是input_submit,于是我写了如下代码

def search(keyword):
    browser.get("https://search.jd.com/")
    input_ = wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
    submit = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, "input_submit")))
    input_.clear() 
    input_.send_keys(keyword)
    submit.click()

由于最近肺炎比较严重,我们keyword不妨设为口罩,submit过后,我们就会来到商品页。我们先判断口罩商品一共有多少页

可以看到一共有100页,不过在滑动的过程中我们发现网页是不断加载出来的,所以我们代码也得进行滑动到最底端这个操作,现在我们先观察如何获得100这个数字。

事实上他就是class为p-skip的span元素下属的b元素的文本而已。综上我给出搜索商品及获得页数这块的整体代码

def search(keyword):
    browser.get("https://search.jd.com/")
    input_ = wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
    submit = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, "input_submit")))
    input_.clear()
    input_.send_keys(keyword)
    submit.click()
    print("Success")
    # 滑到最底端
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    # 总页数
    number = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.p-skip b'))).text
    return number

3. 获得每个商品链接

我们观察商品链接处的源代码(红框处)

可以发现他们是属于.gl-item的li元素下的.p-name的div元素(.表示class),并且target为_blank,于是我们可以这样访问

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.gl-item .p-name [target=_blank]')))
url_list = browser.find_elements_by_css_selector(".gl-item .p-name [target=_blank]")
for url in url_list:
  link_list.append(url.get_attribute("href") + "#comment") # 加上#comment是因为这是评论页的后缀

那么link_list里面就包含了我们所有需要的link信息(说明一下,webelement用get_attribute获得href比用bs4解析要好,他会自动补全上级链接信息。如果直接用bs4解析网址,可能你得到的网址没有加"https"

接下来我们要进行换页,同样是下拉到最底端

橙框是输入页数框,可以看到他是p-skip下input-text,绿框是确认框,他是p-skip下btn。同时input-text也显示目前所在页数,可以作为我们的翻页是否成功的检验,我们有如下代码。

def change_page(page):
    print("正在爬第", page, "页")
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    time.sleep(3)
    page_box = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.p-skip input')))
    page_box.clear()
    page_box.send_keys(str(page))
    submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.p-skip .btn')))
    submit.click()
    # 检查是否加载成功
    wait.until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR, '.p-skip input'), str(page)))

在滑到最下面用time.sleep强制休息一下,不然输入框可能加载不出来(估计京东有反爬措施)。并且每次运行完change_page获得商品链接的时候也sleep加载一下

4. 爬取评论

下面就是最难的爬评论了,京东的限制还是比较多的。

打开评论页发现评论的结构还是蛮简单的,每个评论就是#comment下.comments-list的[data-tab=item],评论文字就是.comment-con的text。对于评论的提取我们不再用webelement的find方式,因为容易出现stale element错误(加载太慢),转而使用bs4的select函数。

换页的定位也不难,不过下一页按钮容易被小图标遮挡,我们用browser.execute_script("arguments[0].click();", next_page) 解决问题。值得注意的是,如果换页太快容易被京东检测到,所以我们爬取一会儿休息一下。

def get_comment(link):
    product_id = re.search("https://item.jd.com/(\d+).html#comment", link).group(1)
    browser.get(link)
    count = 0
    file = open("JD_%s_comments.txt"%product_id, "a", encoding='utf-8')
    while True:
        try:
            if count%10 == 0:
                time.sleep(3)
            browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#comment .comments-list [data-tab=item] .comment-con")))
            soup = BeautifulSoup(browser.page_source, 'lxml')
            url_list = soup.select("#comment .comments-list [data-tab=item] .comment-con")
            for url in url_list:
                file.write(url.text.strip()+"\n")
            count += 1
            next_page = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#comment .ui-page .ui-pager-next")))
            browser.execute_script("arguments[0].click();", next_page) # 被图标遮挡了
        except TimeoutException:
            print("已爬取", count, "页评论")
            file.close()
            break

最后我们整合一下完整代码,爬取就完成了

"""
Created on Mon Feb  3 21:01:53 2020

@author: Simon
"""

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
import re

options = Options()
options.add_argument('--headless')
browser = webdriver.Chrome(options = options)
browser.maximize_window()
wait = WebDriverWait(browser, 10)
def search(keyword):
    browser.get("https://search.jd.com/")
    input_ = wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
    submit = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, "input_submit")))
    input_.clear()
    input_.send_keys(keyword)
    submit.click()
    print("Success")
    # 滑到最底端
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    # 总页数
    number = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.p-skip b'))).text
    return number

def change_page(page):
    print("正在爬第", page, "页")
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    time.sleep(3)
    page_box = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.p-skip input')))
    page_box.clear()
    page_box.send_keys(str(page))
    submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.p-skip .btn')))
    submit.click()
    # 检查是否加载成功
    wait.until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR, '.p-skip input'), str(page)))
    

def get_comment(link):
    product_id = re.search("https://item.jd.com/(\d+).html#comment", link).group(1)
    browser.get(link)
    count = 0
    file = open("JD_%s_comments.txt"%product_id, "a", encoding='utf-8')
    while True:
        try:
            if count%10 == 0:
                time.sleep(3)
            browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#comment .comments-list [data-tab=item] .comment-con")))
            soup = BeautifulSoup(browser.page_source, 'lxml')
            url_list = soup.select("#comment .comments-list [data-tab=item] .comment-con")
            for url in url_list:
                file.write(url.text.strip()+"\n")
            count += 1
            next_page = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#comment .ui-page .ui-pager-next")))
            browser.execute_script("arguments[0].click();", next_page) # 被图标遮挡了
        except TimeoutException:
            print("已爬取", count, "页评论")
            file.close()
            break
 
if __name__ == '__main__':
    number = search("口罩")
    link_list = []
    for page in range(1, int(number) + 1):
        change_page(page)
        time.sleep(3)
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.gl-item .p-name [target=_blank]')))
        url_list = browser.find_elements_by_css_selector(".gl-item .p-name [target=_blank]")
        for url in url_list:
            link_list.append(url.get_attribute("href") + "#comment")
    for link in link_list:
        get_comment(link)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625544.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OSPF基本配置

1.启动OSPF进程 [rijospf1 router-id 1.1.1.1 --- 手工配置RID [r1-ospf-1) 2,创建区域 [r1-ospf-1]area 0 [r1-ospf-1-area-0.0.0.0) 3,宣告 目的:1,只有被宣告网段中的接口才能被激活。 --- 激活接口 ---- 只有激活的接口才能收发OSPF的…

SQL高级语句

主知识点八:窗口函数 新开窗口,不影响原数据的排序。且子句必须有order by。窗口结果返回到 且窗口函数必须写在select后面! ● 【排序窗口函数】 ● rank()over()——1,1,3,4 ● dense_rank()over()——1,1,2,3 ● row_number(…

软件3班20240513

java.util.PropertyResourceBundle4554617c package com.yanyu;import java.sql.*; import java.util.ResourceBundle;public class JDBCTest01 {public static void main(String[] args) throws SQLException { // 获取属性配置文件ResourceBundle bundle Res…

【从零开始实现stm32无刷电机foc】【理论】【1/6 电机旋转本质】

目录 电机旋转需要什么样的力?怎么产生力矢量?怎么产生任意的线圈磁矢量? 电机旋转需要什么样的力? 电机切向存在受力,电机就会旋转。 进一步查看电机结构,分为转子和定子,大部分情况下&#…

经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)

0. 简介 高效的重定位对于GPS信号不佳或基于传感器的定位失败的智能车辆至关重要。最近,Bird’s-Eye-View (BEV) 分割的进展使得能够准确地估计局部场景的外观,从而有利于车辆的重定位。然而,BEV方法的一个缺点是利用几何约束需要大量的计算…

全方位入门git-慕课网 笔记

目录 【上传github忽略某些文件】【配置用户名和邮箱】【想要删除不需要的文件时如何进行操作】【想要给文件重命名如何操作】【想要移动文件到其他位置时如何操作】【文件有变化时,如何查看前后变化】【操作失误的情况下如何实现一键还原】【不再追踪时如何实现撤销…

MySQL基础入门【mysql初识 | 数据库操作 | 表操作 | sql数据类型】

博客主页:花果山~程序猿-CSDN博客 文章分栏:Linux_花果山~程序猿的博客-CSDN博客 关注我一起学习,一起进步,一起探索编程的无限可能吧!让我们一起努力,一起成长! 目录 一,为什么会有…

【Viso画图】Viso导出与图形适配的pdf

step1:选中开发工具点击shapeSheet,选中页 step2:进入页面参数设置窗口,将下面框选的参数设为0,enter后保存 目前效果: step3:选中设计->大小,选择适应页面大小或者自己根据图片调整 目前效果: step4: 以…

[Fork.dev] 增加用idea打开

用Fork做git管理工具时, 只有vscode 和sublime 等. 没有idea的. 今天研究了下如何操作.记录一下 点击 Action 文本框进行编辑 Path填写idea的执行位置. Parameters: 填写 ${repo:path} 代表用idea打开的文件夹路径为当前. 最终显示效果

ConfigError: Main class ‘XXX’ doesn’t exist in the workspace.Vscode

前言 唉,又是被Vscode折磨的一个晚上,本想好好写点代码的,却被一个个小问题搞得团团转,服了。 错误原因分析 正如标题所示,这是扩展“Java->debug”抛出的一个错误,意思是这个“XXX”主类不在工作区内…

数据结构与算法学习笔记十---链队列的表示和实现(C语言)

目录 前言 1.什么是链队 2.链队的表示和实现 1.定义 2.初始化 3.销毁 4.清空 5.空队列 6.队列长度 7.获取队头 8.入队 9.出队 10.遍历队列 11.完整代码 前言 本篇博客介绍链栈队列的表示和实现。 1.什么是链队 链队是采用链式存储结构实现的队列。通常链队使用单…

RAG 面向 LLM: 基于检索增强的大语言模型调研

摘要 作为 AI 领域最先进的技术之一,检索增强生成(RAG)技术可以提供可靠和最新的外部知识,为众多任务提供巨大的便利。特别是在 AI 生成内容(AIGC)时代,RAG 中检索强大的提供额外知识的能力使得检索增强生成能够辅助现有生成式 AI 生产高质量输出。最近,大语言模型(LLM)在语言…

如何将3DMax中制作的特效渲染为AVI格式视频?---模大狮模型网

在3D设计中,制作出精美的特效是吸引眼球的关键之一。然而,仅仅制作特效还不够,将其渲染为视频并分享给观众才能展现出其真正的魅力。本文将为您提供一份完整的指南,教您如何在3ds Max中将制作的特效渲染为AVI格式视频,…

【iOS】——RunLoop学习

文章目录 一、RunLoop简介1.RunLoop介绍2.RunLoop功能3.RunLoop使用场景4.Run Loop 与线程5.RunLoop源代码和模型图 二、RunLoop Mode1.CFRunLoopModeRef2.RunLoop Mode的五种模式3.RunLoop Mode使用 三、RunLoop Source1.CFRunLoopSourceRefsourc0:source1: 2.CFRu…

EEL中 python端的函数名是如何传递给js端的

python端的函数名是如何传递给js端的 核心步骤:将函数名列表注入到动态生成的 eel.js 中,这样前端一开始引用的eel.js本身已经包含有py_function的函数名列表了。你打开开发者工具看看浏览器中的 eel.js文件源代码就知道了。 具体实现: # 读…

如何将一个流固耦合的爆炸案例修改成一个没有固体的爆炸案例(类似于blastfoam的twochargeDetonation案例,可以重点模仿这个来)

t技巧总结:~/myapp/OpenFOAM-7/blastfoam_2_0/tutorials/twoChargeDetonation案例对比,发现确实这个案例也没有固体文件夹和precice-config文件夹,只需要用到openfoam7与blastfoam2.0.0。(这个案例可以当做一个很好的爆炸案例的入…

Spring MVC 介绍及其使用(详细)

目录 一.什么是SpringMVC呢? 1.1MVC的介绍 1.2SpringMVC和MVC的关系 二.SpringMVC的学习 第一步:创建项目 第二步,SpringMVC的连接 第三步,Spring MVC获取参数 第四步 SpringMVC的输出 总结 特点和优势 核心组件 一.什…

ue引擎游戏开发笔记(37)——实现造成伤害

1.需求分析: 在游戏中已经能够射击,并且能得到实际的落点反馈,但本质上这种射击没有任何实际数值伤害,为射击添加实际的子弹伤害数值。 2.操作实现: 1.思路:ue本身函数FPointDamageEvent就可以解决&#x…

谷歌邮箱2024最新注册教程

大家好,我是蓝胖子,今天教大家如何注册谷歌邮箱 谷歌邮箱的注册后面的用途会经常用得到 首先,需要魔法自行解决 第一步:打开谷歌官网 www.google.com 确保谷歌官网能正常打开 第二步:创建账号 接下来可能会遇到这…

鸿蒙原生应用数量激增20倍,鸿蒙生态“一路狂奔”!

过去几个月,在各地政府和千行百业伙伴的全面支持下,鸿蒙生态建设正在以前所未有的速度和规模蓬勃发展。 鸿蒙生态跑出“加速度”,再迎里程碑进展 从1月华为宣布首批200多家应用厂商加速开发鸿蒙原生应用以来,到3月底已有超4000款…