爬虫入门案例——Java还能用来写爬虫?

目录

前言

入门案例

依赖导入

爬虫代码

注意事项

爬取结果

总结


前言

我们在和Python程序员交流的时候,经常会听到他们谈论和爬虫相关的事,爬这个网站,爬那个网站的。这个时候如果听不懂的话,气氛就显得尴尬了。事实上我们Java程序员是有自己的爬虫的!那么和Python相比,Java实现的爬虫有什么不同呢?下面我们来看看两者有什么区别,用一个简单的案例来体验如何用Java实现网络爬虫。以后在和Python程序员交流的时候,多少能插上两句话,还可以显摆显摆。

爬虫不是用Python写的吗?Java也能写爬虫?

爬虫是指一种技术,用于在众多公开的网站和网页中爬取相关的数据。Java也有爬虫库和框架,例如Jsoup和WebMagic。只不过Python的爬虫库和框架更丰富,所以爬虫这种活都是用Python来干。

Java写的爬虫和Python写的有什么区别呢?

1. Java是一种静态类型语言,它需要更多的代码和类型声明来完成相同的任务。相比之下,Python是一种动态类型语言,它的语法更简洁,更易于学习和使用。这使得Python在快速原型开发和小规模爬取任务上更具优势,而Java则更适合于大规模和复杂的爬取任务。

 

2. Java是一种编译型语言,通常比Python更快。Java爬虫可以处理更大规模的数据和更复杂的任务。然而,Python的解释器在处理简单任务和小规模数据时更加高效。

 

3. Java是一种跨平台语言,可以在不同的操作系统上运行。Python也是跨平台的,但在某些操作系统上可能需要额外的配置和依赖。

可以看得出Java不仅仅是可以用来写爬虫,而且在某些方面是具有优势的。 

入门案例

我们以百度热搜为例,爬取热榜的信息。

依赖导入

<dependency>
    <!-- jsoup HTML parser library @ https://jsoup.org/ -->
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.17.1</version>
</dependency>

爬虫代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

@SpringBootTest
class DemoApplicationTests {

    @Test
    public void test() throws IOException {

        // 获取Document对象,这就是JavaScript中的Document对象
        Document doc = Jsoup.connect("https://top.baidu.com/board?tab=realtime").get();
        // 获取所有div标签
        Elements elements = doc.getElementsByTag("div");

        // 暂时将爬取的结果放入list1集合中
        List<String> list1 = new ArrayList<>();
        // 遍历所有Element对象,获取内容并转成字符串
        for (Element element : elements) {
            String s1 = element.getElementsByClass("c-single-text-ellipsis").eq(0).text();
            String s2 = element.getElementsByClass("hot-desc_1m_jR large_nSuFU ").eq(0).text();
            if (!s1.equals("") && !s2.equals("")) {
                list1.add(s1 + "\n" + s2);
            }
        }

        // 对爬取的内容去重
        List<String> list2 = list1.stream().distinct().toList();

        // 遍历打印
        for (String s : list2) {
            System.out.println(s);
            System.out.println("====================================================================");
        }
    }
}

注意事项

我们直接爬取出来的数据是很乱的,需要进行数据处理。那么在爬取数据的时候具体要怎么爬,要先去分析网页的布局是什么样的,如我们案例中的:

可以看到我们要爬取的数据都是在div标签中的,并且是在class属性为"c-single-text-ellipsis"和"hot-desc_1m_jR large_nSuFU "的div标签中。所以分析是很重要的,先利用数据的特征将其爬取,然后再对数据进行处理。

爬取结果

我们可以对比着网页来看,可以看到爬取成功了。

总结

到此我们就成功利用Java实现了网络爬虫的小案例,快点自己去试试吧。当然想用好爬虫还是很难的,毕竟不是所有网站都可以随便的爬取,会有对应的反爬取措施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/250011.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis设计与实现之对象处理机制

目录 一、前言 二、对象处理机制 1、redisObject 数据结构&#xff0c;以及 Redis 的数据类型 2、 命令的类型检查和多态 3、对象共享 4、引用计数以及对象的销毁 三、对象的处理 1、Redis是如何处理字符串对象的&#xff1f; 2、Redis是如何处理列表对象的&#xff1f…

wireshark抓包分析HTTP协议,HTTP协议执行流程,

「作者主页」&#xff1a;士别三日wyx 「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」&#xff1a;对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 使用WireShark工具抓取「HTTP协议」的数据包&#…

干货 | 一文搞定 pytest 自动化测试框架(一)

简介 pytest 是一个成熟的全功能 Python 测试工具&#xff0c;可以帮助您编写更好的程序。它与 Python 自带的 Unittest 测试框架类似&#xff0c;但 pytest 使用起来更简洁和高效&#xff0c;并且兼容 unittest 框架。pytest 有以下实用特性&#xff1a; pytest 能够支持简单…

mysql的ON DELETE CASCADE 和ON DELETE RESTRICT区别

​​ON DELETE CASCADE​​​ 和 ​​ON DELETE RESTRICT​​ 是 MySQL 中两种不同的外键约束级联操作。它们之间的主要区别在于当主表中的记录被删除时&#xff0c;子表中相关记录的处理方式。 ON DELETE CASCADE: 当在主表中删除一条记录时&#xff0c;所有与之相关的子表中…

Linux CentOS 安装 MySQL 8

Linux CentOS 安装 MySQL 8 一、离线安装 MySQL 1.1 检查是否已安装 MySQL rpm -qa | grep mysql如果已经安装了 MySQL&#xff0c;您可以通过以下步骤卸载它。 1.2 卸载已安装的 MySQL rpm -ev mysql80-community-release-el7-7.noarch rpm -ev mysql-community-client-pl…

设计模式——外观模式(结构型)

引言 外观模式是一种结构型设计模式&#xff0c; 能为程序库、 框架或其他复杂类提供一个简单的接口。 ​ 问题 假设你必须在代码中使用某个复杂的库或框架中的众多对象。 正常情况下&#xff0c; 你需要负责所有对象的初始化工作、 管理其依赖关系并按正确的顺序执行方法等。…

第1章:企业级研发测试流程

通过实际&#xff08;自研互联网&#xff09;企业的研发流程一览图。 我们发现分为9个阶段&#xff0c;当然每个公司细节并不一样。 所以我希望你能理解这句话&#xff1a; 一切的流程、行为、结果都是围绕“产品质量”这4个字开展活动。而作为测试&#xff0c;你该考虑的是如何…

26.Java安卓程序设计-基于SSM框架Android的网店系统设计与实现

1. 引言 1.1 背景 介绍网店系统的背景&#xff0c;说明为什么设计这个系统以及系统的重要性。 1.2 研究目的 阐述设计基于SSM框架的Android网店系统的目标和意义。 2. 需求分析 2.1 行业背景 分析网店行业的特点和需求&#xff0c;以及目前市场上同类系统的不足之处。 …

2012-12-12 下载ndk编译出so和可执行文件,放到android 真机运行,包含源码。

一、下载ndk链接NDK 下载 | Android NDK | Android Developers 二、解压ndk后得到下面的文件&#xff0c;里面包含ndk-build.cmd&#xff0c;这个是用来编译的。 三、Android.mk和C源码。完整源码下载路径https://download.csdn.net/download/qq_37858386/88622702 3.1 A…

SpringIOC之LoadTimeWeavingConfigurer

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

spring 笔记七 Spring JdbcTemplate

文章目录 Spring JdbcTemplateJdbcTemplate概述JdbcTemplate开发步骤Spring产生JdbcTemplate对象 Spring JdbcTemplate JdbcTemplate概述 它是spring框架中提供的一个对象&#xff0c;是对原始繁琐的JdbcAPI对象的简单封装。spring框架为我们提供了很多的操作模板类。例如&am…

Python基础教程——制作一个宿舍管理系统(完整版,附源码)

今天我们一起学习一个新的小案例——宿舍管理系统。主要涉及列表、字典的初始化、增加、删除、修改和查询操作&#xff0c;以及函数的定义和调用。 一、需求&#xff1a; 有操作指引界面&#xff0c;显示操作号 能添加一个新的入住学生信息&#xff0c;包括学生姓名、宿舍号床…

vue3引入Echarts图表

说明&#xff1a;echarts是父组件&#xff0c;stack是子组件&#xff0c;将stack引入到echarts文件中 查看echarts.vue时可看到stack.vue中的图表 # # # 引入方式 第一步 Echarts官网&#xff1a;快速上手 - 使用手册 - Apache ECharts 第二步 在控制台安装Echarts模块…

25.Java程序设计-基于SSM框架的微信小程序校园求职系统的设计与实现

1. 引言 1.1 背景 介绍校园求职系统的背景&#xff0c;说明为什么设计这个系统以及系统的重要性。 1.2 研究目的 阐述设计基于SSM框架的微信小程序校园求职系统的目标和意义。 2. 需求分析 2.1 行业背景 分析校园求职行业的特点和需求&#xff0c;以及目前市场上同类系统…

基于Java的教学信息反馈系统设计与实现(源码+调试)

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于Java的教学信息反馈…

高频Postman接口测试面试题

一、Postman在工作中使用流程是什么样的&#xff1f; 新建集合管理根据接口所属的模块&#xff0c;在集合中不同模块下编写接口测试用例处理接口之间的数据关联操作添加环境变量在tests tab下中增加断言调试接口&#xff0c;确保接口能被正常调用批量运行用例或者导出通过Newm…

Dubbo 快速入门使用教程

文章目录 Dubbo 介绍Dubbo 入门使用一、Zookeeper 注册中心安装启动二、服务提供方三、服务消费方 Dubbo 介绍 dubbo 2.x版本官方文档 参考 Apache Dubbo 是一款 RPC&#xff08;Remote Procedure Call 远程过程调用&#xff09;服务开发框架&#xff0c;提供了远程调用方案和…

RabbitMQ死信队列详解

什么是死信队列 由于特定的**原因导致 Queue 中的某些消息无法被消费&#xff0c;**这类消费异常的数据将会保存在死信队列中防止消息丢失&#xff0c;例如用户在商城下单成功并点击支付后&#xff0c;在指定时间未支付时的订单自动失效死信队列只不过是绑定在死信交换机上的队…

为什么谷歌每年向苹果支付180亿美元“保护费”

在大众印象里&#xff0c;谷歌和苹果似乎处处“水火不容”。 两大科技巨擘在各类产品和服务上竞争&#xff0c;比如操作系统、浏览器、地图、数字助理、手机&#xff0c;数不胜数。但是在这种敌对关系背后&#xff0c;却有着对他们双方都有利的秘密伙伴关系。 你或许不知道&am…

Qt 数据库QSqlDatabase使用记录

记录一些在QT中使用QSqlDatabase操作数据库时&#xff0c;需要注意的地方 创建数据库 bool CDBOperatorAbstract::_openDBConn(CDatabaseConfig config) {QWriteLocker locker(&m_locker);QSqlDatabase db;if(QSqlDatabase::contains(m_connectionName)){db QSqlDatabas…