利用 Jsoup 进行高效 Web 抓取与 HTML 处理

Jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

官网:https://jsoup.org/

中文文档:Jsoup 快速入门 | JAVA-TUTORIAL

1. Jsoup相关概念

1. Document

  • 定义:Document 对象表示整个 HTML 文档。
  • 用途:用于解析 HTML 字符串或从 URL 获取 HTML 内容。

2. Element

  • 定义:Element 对象表示 HTML 中的一个标签元素。
  • 用途:用于选择和操作具体的 HTML 元素。

3. Elements

  • 定义:Elements 对象是一个 Element 对象的集合。
  • 用途:用于存储多个匹配的元素。

4. Node

  • 定义:Node 是 Element 和 Text 的基类,表示 HTML 文档中的节点。
  • 用途:用于更细粒度的操作,如处理注释、文档类型声明等。

5. TextNode

  • 定义:TextNode 表示 HTML 文档中的纯文本节点。
  • 用途:用于处理元素内的文本内容。

6. CSS 选择器

  • 定义:CSS 选择器是一种用于选择 HTML 元素的语法。
  • 用途:用于精确选择文档中的特定元素。
  • 常用选择器:
    • #id:选择具有指定 ID 的元素。
    • .class:选择具有指定类的元素。
    • tag:选择指定标签的元素。
    • tag[attr]:选择具有指定属性的元素。
    • tag[attr=value]:选择具有指定属性值的元素。

7. 连接和请求

  • 定义:Jsoup 提供了连接到 URL 并获取 HTML 文档的功能。
  • 用途:用于从远程服务器获取 HTML 内容。

2. Jsoup 的优点

1. 易用性:

  • 简洁的 API:Jsoup 提供了非常简洁和直观的 API,使得开发者可以快速上手。
  • 链式调用:支持链式调用,使代码更加简洁和可读。

2. 强大的解析能力:

  • HTML 解析:能够解析不规范的 HTML,即使 HTML 结构不完整也能正确解析。
  • CSS 选择器:支持类似于 jQuery 的 CSS 选择器,方便提取和操作 HTML 元素。

3. 网络请求:

  • HTTP 请求:内置了简单的 HTTP 客户端,可以方便地发送 GET 和 POST 请求。
  • 自动处理重定向:支持自动处理 HTTP 重定向。

4. 安全性:

  • HTML 清洗:提供了 Jsoup.clean 方法,可以清理 HTML 以防止 XSS 攻击,确保输出的安全性。

3. Jsoup 的缺点

1. 性能问题:

  • 内存消耗:在处理大文件或大量数据时,Jsoup 可能会消耗较多的内存,尤其是在解析复杂的 HTML 文档时。
  • 速度较慢:与一些低级别的解析库相比,Jsoup 的解析速度可能稍慢,特别是在高并发场景下。

2. 功能限制:

  • 有限的 HTTP 功能:虽然内置了 HTTP 客户端,但功能相对简单,对于复杂的需求(如多线程请求、高级认证等)可能需要额外的库支持。
  • 缺乏高级特性:相比于一些更专业的爬虫框架(如 Scrapy),Jsoup 缺乏一些高级特性,如分布式爬取、自动反爬机制等。

3. 依赖管理:

  • 依赖项:Jsoup 本身依赖较少,但在实际项目中可能需要引入其他库来补充其功能,增加了项目的复杂性。

4. 错误处理:

  • 异常处理:Jsoup 的异常处理机制较为简单,对于一些复杂的错误情况可能需要开发者自行处理。

4. 执行流程

4.1. 添加依赖

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

4.2. 获取 Document

Jsoup 类方法列表:

方法名称

是否静态

参数

返回值

描述

parse(String html)

String html

Document

从字符串中解析 HTML 并返回一个 Document 对象。

parse(File in, String charsetName)

File in, String charsetName

Document

从文件中解析 HTML 并返回一个 Document 对象。

parse(URL url, int timeoutMillis)

URL url, int timeoutMillis

Document

从 URL 中解析 HTML 并返回一个 Document 对象。

connect(String url)

String url

Connection

创建一个新的 Connection 对象,用于发送 HTTP 请求。

 Connection 类方法列表:

方法名称

是否静态

参数

返回值

描述

method(Method method)

Method method

Connection

设置请求方法(GET、POST 等)。

url(URL url)

URL url

Connection

设置请求的 URL。

requestBody(String requestBody)

String requestBody

Connection

设置请求体内容。

data(String key, String value)

String key, String value

Connection

添加表单数据。

header(String key, String value)

String key, String value

Connection

添加请求头。

userAgent(String userAgent)

String userAgent

Connection

设置 User-Agent。

referrer(String referrer)

String referrer

Connection

设置 Referer。

timeout(int millis)

int millis

Connection

设置连接超时时间(毫秒)。

followRedirects(boolean follow)

boolean follow

Connection

设置是否自动跟随重定向。

ignoreHttpErrors(boolean ignore)

boolean ignore

Connection

设置是否忽略 HTTP 错误(如 404)。

ignoreContentType(boolean ignore)

boolean ignore

Connection

设置是否忽略内容类型检查。

maxBodySize(int maxSize)

int maxSize

Connection

设置响应体的最大大小(字节)。

cookie(String key, String value)

String key, String value

Connection

添加 Cookie。

cookies(Map<String, String> cookies)

Map<String, String> cookies

Connection

添加多个 Cookie。

execute()

Connection.Response

执行请求并返回响应对象。

get()

Document

发送 GET 请求并返回解析后的 Document 对象。

post()

Document

发送 POST 请求并返回解析后的 Document 对象。

 Connection.Response 类方法列表:

方法名称

是否静态

参数

返回值

描述

body()

String

获取响应体内容。

parse()

Document

解析响应体为 Document 对象。

statusCode()

int

获取响应状态码。

statusMessage()

String

获取响应状态消息。

url()

URL

获取最终请求的 URL(可能经过重定向)。

headers()

Map<String, List<String>>

获取响应头。

header(String key)

String key

String

获取指定响应头的值。

cookies()

Map<String, String>

获取响应中的 Cookie。

cookie(String key)

String key

String

获取指定 Cookie 的值。

 4.3. 获取Element 或 Elements 及 文本内容

Document 类方法列表:

方法名称

是否静态

参数

返回值

描述

title()

String

获取文档的标题。

select(String cssQuery)

String cssQuery

Elements

使用 CSS 选择器选择元素。

getElementsByTag(String tagName)

String tagName

Elements

获取指定标签名的所有元素。

getElementById(String id)

String id

Element

获取指定 ID 的元素。

html()

String

获取文档的 HTML 内容。

text()

String

获取文档的文本内容。

Elements 类方法列表:

方法名称

是否静态

参数

返回值

描述

first()

Element

获取第一个元素。

last()

Element

获取最后一个元素。

size()

int

获取元素的数量。

get(int index)

int index

Element

获取指定索引的元素。

eachText()

List<String>

获取所有元素的文本内容列表。

eachAttr(String attributeKey)

String attributeKey

List<String>

获取所有元素的指定属性值列表。

 Element 类方法列表:

方法名称

是否静态

参数

返回值

描述

attr(String key)

String key

String

获取元素的属性值。

removeAttr(String key)

String key

Element

移除元素的属性。

addClass(String className)

String className

Element

添加 CSS 类。

removeClass(String className)

String className

Element

移除 CSS 类。

text()

String

获取元素的文本内容。

html()

String

获取元素的 HTML 内容。

append(String html)

String html

Element

在元素末尾追加 HTML。

prepend(String html)

String html

Element

在元素开头插入 HTML。

select(String cssQuery)

String cssQuery

Elements

使用 CSS 选择器选择子元素。

5. CSS 选择器

5.1.  基本选择器

1. 标签选择器

  • 选择所有 <div> 标签:div
  • 选择所有 <a> 标签:a

2. 类选择器

  • 选择所有带有 class="example" 的元素:.example

3. ID 选择器

  • 选择 ID 为 example 的元素:#example

4. 属性选择器

  • 选择所有带有 href 属性的 <a> 标签:a[href]
  • 选择所有 href 属性值为 http://example.com 的 <a> 标签:a[href="http://example.com"]
  • 选择所有 href 属性值包含 example 的 <a> 标签:a[href*="example"]
  • 选择所有 href 属性值以 http 开头的 <a> 标签:a[href^="http"]
  • 选择所有 href 属性值以 .html 结尾的 <a> 标签:a[href$=".html"]
  • 选择所有 src 属性值匹配正则表达式的 <img> 标签:img[src~=(?i)(png|jpe?g)]

5. 命名空间选择器

  • 选择所有在 fb 命名空间中的 name 标签:fb|name

6. 通配符选择器

  • 选择所有元素:*

5.2. 组合选择器

1. 后代选择器

  • 选择所有在 <div> 内部的 <p> 标签:div p

2. 子选择器

  • 选择所有直接在 <div> 内部的 <p> 标签:div > p

3. 相邻兄弟选择器

  • 选择所有紧接在 <h1> 后面的 <p> 标签:h1 + p

4. 通用兄弟选择器

  • 选择所有在 <h1> 后面的 <p> 标签:h1 ~ p

5. 元素+ID

  • 选择所有带有 ID 为 logo 的 <div> 标签:div#logo

6. 元素+类

  • 选择所有带有 class="title" 的 <div> 标签:div.title

7. 元素+属性

  • 选择所有带有 href 属性的 <a> 标签:a[href]

8. 多个类选择器

  • 选择所有同时带有 class="info" 和 class="active" 的元素:.info.active

9. 多个选择器组合

  •  选择所有带有 class="highlight" 且带有 href 属性的 <a> 标签:a[href].highlight

5.3. 伪类选择器

1. 索引选择器

  • 选择索引值小于 3 的 <td> 标签:td:lt(3)
  • 选择索引值大于 2 的 <p> 标签:div p:gt(2)
  • 选择索引值等于 1 的 <input> 标签:form input:eq(1)

2. 包含选择器

  • 选择包含 <p> 标签的 <div> 标签:div:has(p)
  • 选择不包含 class="logo" 的所有 <div> 标签:div:not(.logo)

3. 文本匹配选择器

  • 选择包含文本 jsoup 的 <p> 标签:p:contains(jsoup)
  • 选择直接包含文本 jsoup 的 <p> 标签:p:containsOwn(jsoup)

4. 正则表达式匹配选择器

  • 选择文本匹配正则表达式的 <div> 标签:div:matches((?i)login)
  • 选择自身包含文本匹配正则表达式的 <div> 标签:div:matchesOwn((?i)login)

6. 实战示例

以爬取 https://ssr3.scrape.center/ 这个网站为例:

1. 获取所有电影信息。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.http.HttpHeaders;

import java.io.IOException;

@SpringBootTest
public class JsoupTests {
    @Test
    public void testJsoup() throws IOException {
        String url = "https://ssr3.scrape.center/";
        Document document = Jsoup.connect(url)
                .header(HttpHeaders.AUTHORIZATION, "Basic YWRtaW46YWRtaW4=")
                .get();
        // 解析电影信息
        Elements movieItems = document.select(".el-card__body");
        for (Element item : movieItems) {
            // 提取电影名称和链接
            Element nameLink = item.select("a.name").first();
            if (nameLink != null) {
                String movieName = nameLink.select("h2").text();
                String movieUrl = nameLink.attr("href");

                // 提取电影封面URL
                Element coverImage = item.select("img.cover").first();
                String coverImageUrl = coverImage != null ? coverImage.attr("src") : "N/A";

                // 提取电影类别
                String category = item.select(".el-button.category").text();

                // 提取国家和片长
                Elements infoElements = item.select(".info");
                String countryAndDuration = infoElements.get(0).text();
                String[] parts = countryAndDuration.split(" / ");
                String country = parts[0];
                String duration = parts[1];

                // 提取上映日期
                String releaseDate = infoElements.get(1).text();

                // 提取评分
                String score = item.select(".score").text();

                // 提取星级评分
                String starRating = item.select(".el-rate").attr("aria-valuenow");

                // 打印提取的信息
                System.out.println("电影名称: " + movieName);
                System.out.println("电影链接: " + movieUrl);
                System.out.println("电影封面URL: " + coverImageUrl);
                System.out.println("电影类别: " + category);
                System.out.println("国家: " + country);
                System.out.println("片长: " + duration);
                System.out.println("上映日期: " + releaseDate);
                System.out.println("评分: " + score);
                System.out.println("星级评分: " + starRating);
                System.out.println("----------------------------");
            }
        }
    }
}

 测试结果为:

 2. 打印所有电影的电影类别、国家和片长、上映日期、评分、星级评分、总条数及页面链接

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.http.HttpHeaders;

import java.io.IOException;

@SpringBootTest
public class JsoupTests {
    public static void main(String[] args) {
        String url = "https://ssr3.scrape.center/";

        try {
            // 连接并获取文档
            Document document = Jsoup.connect(url)
                    .header("Authorization", "Basic YWRtaW46YWRtaW4=")
                    .get();

            // 提取电影类别
            Elements categoryButtons = document.select(".el-button.category");
            for (Element button : categoryButtons) {
                System.out.println("电影类别: " + button.text());
            }

            // 提取国家和片长
            Elements infoDivs = document.select(".info");
            for (Element div : infoDivs) {
                System.out.println("国家和片长: " + div.text());
            }

            // 提取上映日期
            Elements releaseDateDivs = document.select(".info:contains(上映)");
            for (Element div : releaseDateDivs) {
                System.out.println("上映日期: " + div.text());
            }

            // 提取评分
            Elements scoreElements = document.select(".score");
            for (Element score : scoreElements) {
                System.out.println("评分: " + score.text());
            }

            // 提取星级评分
            Elements rateElements = document.select(".el-rate");
            for (Element rate : rateElements) {
                int fullStars = rate.select(".el-rate__icon.el-icon-star-on").size();
                int halfStar = rate.select(".el-rate__decimal.el-icon-star-on").size();
                double rating = fullStars + (halfStar > 0 ? 0.5 : 0);
                System.out.println("星级评分: " + rating);
            }

            // 提取分页信息
            Element pagination = document.select(".el-pagination").first();
            if (pagination != null) {
                String totalItems = pagination.select(".el-pagination__total").text();
                System.out.println("总条数: " + totalItems);

                Elements pageLinks = pagination.select(".el-pager li.number a");
                for (Element link : pageLinks) {
                    System.out.println("页面链接: " + link.attr("href"));
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

打印结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923302.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于IPMI的服务器硬件监控指标解读

在现代化数据中心中&#xff0c;服务器的稳定运行对于保障业务连续性至关重要。为了实时掌握服务器的健康状况&#xff0c;运维团队需要借助高效的监控工具。监控易作为一款功能强大的监控软件&#xff0c;支持使用IPMI&#xff08;Intelligent Platform Management Interface&…

windows C#-属性

属性提供了一种将元数据或声明性信息与代码(程序集、类型、方法、属性等)关联的强大方法。将属性与程序实体关联后&#xff0c;可以使用称为反射的技术在运行时查询该属性。 属性具有以下属性&#xff1a; 属性将元数据添加到您的程序中。元数据是有关程序中定义的类型的信息…

【Mybatis】@Param注解 resultMap手动映射

文章目录 一、映射文件参数二、查询映射2-1 一对一2-2 一对多2-3 总结 一、映射文件参数 Param 注解官方文档解释 1、单个参数&#xff08;对象&#xff09;不使用注解 public int save(User user);<!-- 添加用户 --> <insert id"save" parameterType&quo…

第02章_MySQL环境搭建(基础)

1. MySQL 的卸载 1.1 步骤1&#xff1a;停止 MySQL 服务 在卸载之前&#xff0c;先停止 MySQL8.0 的服务。按键盘上的 “Ctrl Alt Delete” 组合键&#xff0c;打开“任务管理器”对话 框&#xff0c;可以在“服务”列表找到“MySQL8.0” 的服务&#xff0c;如果现在“正在…

ES 和Kibana-v2 带用户登录验证

1. 前言 ElasticSearch、可视化操作工具Kibana。如果你是Linux centos系统的话&#xff0c;下面的指令可以一路CV完成服务的部署。 2. 服务搭建 2.1. 部署ElasticSearch 拉取docker镜像 docker pull elasticsearch:7.17.21 创建挂载卷目录 mkdir /**/es-data -p mkdir /**/…

H.265流媒体播放器EasyPlayer.js无插件H5播放器关于移动端(H5)切换网络的时候,播放器会触发什么事件

EasyPlayer.js无插件H5播放器作为一款功能全面的H5流媒体播放器&#xff0c;凭借其多种协议支持、多种解码方式、丰富的渲染元素和强大的应用功能&#xff0c;以及出色的跨平台兼容性&#xff0c;为用户提供了高度定制化的选项和优化的播放体验。无论是视频直播还是点播&#x…

SpringBoot(9)-Dubbo+Zookeeper

目录 一、了解分布式系统 二、RPC 三、Dubbo 四、SpringBootDubboZookeeper 4.1 框架搭建 4.2 实现RPC 一、了解分布式系统 分布式系统&#xff1a;由一组通过网络进行通信&#xff0c;为了完成共同的任务而协调工作的计算机节点组成的系统 二、RPC RPC&#xff1a;远程…

【强化学习的数学原理】第02课-贝尔曼公式-笔记

学习资料&#xff1a;bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接&#xff1a;强化学习的数学原理 西湖大学 赵世钰 文章目录 一、为什么return重要&#xff1f;如何计算return&#xff1f;二、state value的定义三、Bellman公式的详细推导四、公式向量形式…

[QDS]从零开始,写第一个Qt Design Studio到程序调用的项目

前言 最近在使用Qt Design Studio进行开发&#xff0c;但是简中网上要不就是只搜得到Qt Designer(Qt Creator内部库)&#xff0c;要不就只搜得到一点营销号不知道从哪里搬来的账号&#xff0c;鉴于Qt Design Studio是一个这么强大的软件&#xff0c;自然是需要来进行一下小小的…

(三)Sping Boot学习——升级jdk1.8-jdk18

1.修改系统环境变量。 2.idea中修改配置。 3.项目setting中设置修改 4.更新后还要重新下载依赖mvn clean install &#xff0c;并且记住reload 项目。同时查看java -version查看一下jdk版本。

基于FPGA的2FSK调制-串口收发-带tb仿真文件-实际上板验证成功

基于FPGA的2FSK调制 前言一、2FSK储备知识二、代码分析1.模块分析2.波形分析 总结 前言 设计实现连续相位 2FSK 调制器&#xff0c;2FSK 的两个频率为:fI15KHz&#xff0c;f23KHz&#xff0c;波特率为 1500 bps,比特0映射为f 载波&#xff0c;比特1映射为 载波。 1&#xff09…

WPF中如何让Textbox显示为一条直线

由于Textbox直接使用是一条直线 设置如下代码 可以让Textbox变为直线输入 <Style TargetType"TextBox"x:Key"UsernameTextBoxStyle"><Setter Property"Template"><Setter.Value><ControlTemplate TargetType"{x:Typ…

周志华深度森林deep forest(deep-forest)最新可安装教程,仅需在pycharm中完成,超简单安装教程

1、打开pycharm 没有pycharm的&#xff0c;在站内搜索安装教程即可。 2、点击“文件”“新建项目” 3、创建项目&#xff0c;Python版本中选择Python39。如果没有该版本&#xff0c;选择下面的Python 3.9下载并安装。 4、打开软件包&#xff0c;搜索“deep-forest”软件包&am…

【代码pycharm】动手学深度学习v2-08 线性回归 + 基础优化算法

课程链接 线性回归的从零开始实现 import random import torch from d2l import torch as d2l# 人造数据集 def synthetic_data(w,b,num_examples):Xtorch.normal(0,1,(num_examples,len(w)))ytorch.matmul(X,w)bytorch.normal(0,0.01,y.shape) # 加入噪声return X,y.reshape…

即时通讯平台-音视频即时通讯平台就选WorkPlus

在现代社会&#xff0c;企业和组织对沟通的需求日益增加&#xff0c;尤其是在瞬息万变的商业环境中&#xff0c;音视频即时通讯已成为沟通的主流形式。WorkPlus作为一款专注于音视频即时通讯的平台&#xff0c;凭借其强大的功能和出色的用户体验&#xff0c;成为了企业和团队的…

亚信安全与飞书达成深度合作

近日&#xff0c;亚信安全联合飞书举办的“走近先进”系列活动正式走进亚信。活动以“安全护航信息化 共筑数字未来路”为主题&#xff0c;吸引了众多数字化转型前沿企业的近百位领导参会。作为“走近先进”系列的第二场活动&#xff0c;本场活动更加深入挖掘了数字化转型的基础…

Fakelocation Server服务器/专业版 ubuntu

前言:需要Ubuntu系统 Fakelocation开源文件系统需求 Ubuntu | Fakelocation | 任务一 任务一 更新Ubuntu&#xff08;安装下载不再赘述&#xff09; sudo -i # 提权 sudo apt update # 更新软件包列表 sudo apt upgrade # 升级已安装的软…

基于数据融合的智能家居环境监测系统研究与设计(论文+源码)

1总体方案设计 本次基于数据融合的智能家居环境监测系统的设计&#xff0c;其系统总体架构如图2.1所示&#xff0c;整个系统在器件上包括了主控制器STM32F103单片机&#xff0c;MQ可燃气体传感器&#xff0c;光照传感器&#xff0c;DHT11温湿度传感器&#xff0c;风扇&#xf…

风尚云网前端学习:一个简易前端新手友好的HTML5页面布局与样式设计

风尚云网前端学习&#xff1a;一个简易前端新手友好的HTML5页面布局与样式设计 简介 在前端开发的世界里&#xff0c;HTML5和CSS3是构建现代网页的基石。本文将通过一个简单的HTML5页面模板&#xff0c;展示如何使用HTML5的结构化元素和CSS3的样式特性&#xff0c;来创建一个…

tauri2.0版本开发苹果ios和安卓android应用,环境搭建和最后编译为apk

官网链接&#xff1a;What is Tauri? | Tauri 初始准备 rust版本一定要1.77.2以上的版本&#xff0c;查看版本和升级版本&#xff1a; 升级命名&#xff1a; rustup update 不然会报错&#xff1a; error: package tauri-plugin-shell v2.0.2 cannot be built because it r…