Java爬虫攻略:应对JavaScript登录表单

16yun (2).png

问题背景

在进行网络抓取数据时,经常会遇到需要登录的网站,特别是使用JavaScript动态生成登录表单的情况。传统的爬虫工具可能无法直接处理这种情况,因此需要一种能够模拟用户行为登录的情况解决方案。
在实际项目中,我们可能需要从一些需要登录的网站上获取数据,比如京东、淘宝等电商网站,这就需要我们编写一个爬虫程序来模拟用户登录并获取所需数据。但是,由于这些网站通常采用JavaScript动态生成的登录表单,传统的爬虫工具可能无法直接处理,因此我们需要一种更专业的解决方案。

项目需求场景

假设我们需要编写一个Java爬虫程序,用于登录京东网站并获取特定商品的价格信息。由于京东网站采用了JavaScript动态生成的登录表单,传统的爬虫工具无法直接处理该情况,因此我们需要一个能够模拟登录用户行为的解决方案。

遇到的问题

在尝试使用传统的Java爬虫工具进行京东网站数据抓取时,发现无法直接处理JavaScript动态生成的登录表单,导致无法完成登录操作,进而无法获取所需的商品价格信息。这就需要我们寻找一种更专业的解决方案,方便能够顺利地模拟用户登录并获取数据。

解决方案

使用Selenium进行模拟登录

Selenium是一个用于Web应用程序测试的工具,也可以用于模拟用户在浏览器中的操作。我们可以利用Selenium来模拟用户打开浏览器、输入用户名和密码、点击登录按钮等操作,从而实现对JavaScript登录表单的处理。
在我们的示例代码中,我们使用了Chrome浏览器作为演示,首先创建一个ChromeDriver实例,打开京东网站,找到登录链接并点击,然后找到用户名和密码的输入框,输入相应的信息,最后点击登录按钮。这样就可以模拟用户登录京东网站。

// 示例代码
WebDriver driver = new ChromeDriver();
driver.get("https://www.jd.com/");
WebElement loginLink = driver.findElement(By.linkText("你好,请登录"));
loginLink.click();
WebElement username = driver.findElement(By.id("loginname"));
username.sendKeys("your_username");
WebElement password = driver.findElement(By.id("nloginpwd"));
password.sendKeys("your_password");
WebElement loginButton = driver.findElement(By.id("loginsubmit"));
loginButton.click();

使用Scrapy-Selenium扩展

Scrapy是一个强大的Python爬虫框架,而Scrapy-Selenium是一个Scrapy的扩展,可以与Selenium集成,实现在Scrapy爬虫中使用Selenium进行页面操作。虽然Scrapy本身是Python编写的,但是可以通过Jython或者我们使用Python调用Java程序的方式来实现在Java环境中使用Scrapy-Selenium。
在我们的示例中,我们将使用Scrapy-Selenium扩展来处理JavaScript登录表单。我们首先创建一个ChromeOptions实例,并设置代理信息,然后创建一个ChromeDriver实例,将代理信息应用到ChromeDriver的选项中,最后打开京东网站并进行其他操作。

// 示例代码
import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

public class JdPriceProcessor implements PageProcessor {
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    @Override
    public void process(Page page) {
        String proxyHost = "www.16yun.cn";
        String proxyPort = "5445";
        String proxyUser = "16QMSOML";
        String proxyPass = "280651";

        ChromeOptions options = new ChromeOptions();
        Proxy proxy = new Proxy();
        proxy.setHttpProxy(proxyHost + ":" + proxyPort);
        proxy.setSslProxy(proxyHost + ":" + proxyPort);
        proxy.setSocksProxy(proxyHost + ":" + proxyPort);
        proxy.setSocksUsername(proxyUser);
        proxy.setSocksPassword(proxyPass);
        options.setCapability("proxy", proxy);

        WebDriver driver = new ChromeDriver(options);
        driver.get("https://www.jd.com/");
        // 其他操作
    }

    @Override
    public Site getSite() {
        return site;
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/238213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uniapp-实现一级二级职位选择,完整页面!!!

一、需求 该页面实现的功能有: 该页面是左侧为一级,右侧为二级;可以搜索职位进行选择;底部显示已选的岗位,点击每一项会删除;右侧的二级岗位,点击时会选中,再次点击会取消&#xf…

AI数字人在tiktok平台开播教程!

AI数字人作为一种虚拟形象的代表,正在逐渐走进人们的生活。在小红书这样的短视频平台上,AI数字人也有机会开展直播活动,展示自己的个性魅力,也可以进行直播带货! 数字人在淘宝购物平台开播原理 (1&#xff…

[UNILM]论文实现:Unified Language Model Pre-training for Natural Language.........

文章目录 一、完整代码二、论文解读2.1 介绍2.2 架构2.3 输入端2.4 结果 三、过程实现四、整体总结 论文:Unified Language Model Pre-training for Natural Language Understanding and Generation 作者:Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xia…

【docker】容器使用(Nginx 示例)

查看 Docker 客户端命令选项 docker上面这三张图都是 常用命令: run 从映像创建并运行新容器exec 在运行的容器中执行命令ps 列出容器build 从Dockerfile构建映像pull 从注册表下载图像push 将图像上载到注册表…

深度学习 Day10——T10数据增强

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 文章目录 前言一、我的环境二、代码实现与执行结果1.引入库2.设置GPU(如果使用的是CPU可以忽略这步)3.导入数据4.查…

Vue3-05-计算属性使用详解

计算属性简介 计算属性的函数是 computed()。计算属性可以帮助我们处理有复杂逻辑的响应式数据的渲染, 从而代替 模板表达式 的写法。比如 : 一个数值类型的数组对象,我们希望页面展示的只有 偶数。 此时,就可以通过 计算属性 来…

美食大赛的题解

目录 原题描述: 题目描述: 输入格式: 输出格式: 样例输入: 样例输出: 数据规模: 题目大意: 主要思路: 注: 代码: 原题描述&#xff1a…

家具制造ERP软件包含哪些功能?家具制造业ERP系统哪个好

不同的家具有不同的用料、品质、制造工时、营销渠道等,而有些家具制造企业采用传统的管理方式在处理物料BOM、生产实际成本核算、库存盘点、供应商选择、班组计件核对、生产领用以及物料追溯等方面存在不少提升空间。 与此同时也有很多的皮具制造企业借助ERP软件优…

Qt的坐标系系统 - 3个坐标系,2个变换

参考: https://zhuanlan.zhihu.com/p/584048811https://www.zhihu.com/tardis/zm/art/634951149?source_id1005 小谈Qt的坐标系系统 Qt中有三个坐标系 设备坐标系窗口坐标系逻辑坐标系 设备坐标系: 即Device坐标系。也是物理坐标系。即真实的的物理坐标系。 …

[IDEA] 写代码时没有类型推断的解决方法

本示例使用scala, 其他语言同理 使用 .var 时会自动生成变量 使用快捷键 CtrlAtlv 一样 val abc "abc"但是这个变量没有显式表现类型 期望 val abc: String "abc" 解决方法

python自动化运维快速入门,python自动化运维教程

大家好,给大家分享一下python自动化运维需要掌握的技能,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 面向学员 熟练使用计算机,对Windows、Linux 有一点了解从业职或在校学生 对目前从事互联网运维,想…

23种设计模式之模板方法模式(模板模式)

23种设计模式之模板方法模式(模板模式) 文章目录 23种设计模式之模板方法模式(模板模式)设计思想模板方法的优缺点模板方法模式的缺点代码解析小结 设计思想 原文:定义一个操作中的算法的骨架,而将一些步骤延迟到子类中。模板方法使得子类可以不改变一个算法的结构…

网络基础(五):网络层协议介绍

目录 一、网络层 1、网络层的概念 2、网络层功能 3、IP数据包格式 二、ICMP协议 1、ICMP的作用和功能 2、ping命令的使用 2.1ping命令的通用格式 2.2ping命令的常用参数 2.3TypeCode:查看不同功能的ICMP报文 2.4ping出现问题 3、Tracert 4、冲突域 5、…

2024年骨传导蓝牙耳机排行榜前十,骨传导耳机品牌排行榜推荐

2024年骨传导蓝牙耳机排行榜前十,骨传导耳机品牌排行榜推荐 随着科技的飞速发展,骨传导蓝牙耳机已经成为了市场上备受欢迎的音频设备。这种神奇的耳机通过骨头传递声音,让你在享受音乐的同时,还能听到周围的环境,为你…

【触想智能】工业显示器的日常维护及分类知识分享

工业显示器不同于普通商业显示器,它的结构比较复杂,如果在使用的过程中出现产品故障,我们怎么处理呢?今天小编为大家介绍工业显示器日常维护以及分类方面的知识,希望对大家有所帮助。 1、 工业显示器整机无电。这其实是一个非常简…

class077 区间dp-下【算法】

class077 区间dp-下【算法】 算法讲解077【必备】区间dp-下 code1 括号区间匹配 // 完成配对需要的最少字符数量 // 给定一个由’[‘、’]‘、’(‘,’)‘组成的字符串 // 请问最少插入多少个括号就能使这个字符串的所有括号正确配对 // 例如当前串是 “([[])”&a…

python——第十七天

方法重写(overwrite) 、方法覆盖(override ):在继承的基础上,子类继承了父类的方法,如果不能满足自己使用,我们就可以重写或覆盖该方法 函数重载(overload): 在强数据类型的编程语言中(如Java、C、C等等): 函数名称…

C语言常用字符串

目录 1.什么是字符串 2.如何定义字符串 第3和第4定义的区别:3是字符串变量,4是字符串常量,不予许被修改 3.strlen和sizeof的区别 4.地址分配(malloc,realloc,free,memset) 案例 5.字符串拷贝(strcpy,strncpy) …

【每日一题】【12.11】1631.最小体力消耗路径

🔥博客主页: A_SHOWY🎥系列专栏:力扣刷题总结录 数据结构 云计算 数字图像处理 1631. 最小体力消耗路径https://leetcode.cn/problems/path-with-minimum-effort/这道题目的核心思路是:使用了二分查找和BFS &a…

【NR技术】NR NG-RAN整体架构 -网络接口以及无线协议框架(四)

1 引言 本博文介绍NR NG-RAN的网络节点间的接口以及无线协议框架。网络接口介绍包括RAN和NGC之间的NG接口;无线协议框架包括用户面和控制面协议。 2 NG接口 2.1 NG用户面接口 NG-U (user plane interface)是NG-RAN节点与UPF之间的接口。NG接口的用户平面协议栈如图…