目录
前言
入门案例
依赖导入
爬虫代码
注意事项
爬取结果
总结
前言
我们在和Python程序员交流的时候,经常会听到他们谈论和爬虫相关的事,爬这个网站,爬那个网站的。这个时候如果听不懂的话,气氛就显得尴尬了。事实上我们Java程序员是有自己的爬虫的!那么和Python相比,Java实现的爬虫有什么不同呢?下面我们来看看两者有什么区别,用一个简单的案例来体验如何用Java实现网络爬虫。以后在和Python程序员交流的时候,多少能插上两句话,还可以显摆显摆。
爬虫不是用Python写的吗?Java也能写爬虫?
爬虫是指一种技术,用于在众多公开的网站和网页中爬取相关的数据。Java也有爬虫库和框架,例如Jsoup和WebMagic。只不过Python的爬虫库和框架更丰富,所以爬虫这种活都是用Python来干。
Java写的爬虫和Python写的有什么区别呢?
1. Java是一种静态类型语言,它需要更多的代码和类型声明来完成相同的任务。相比之下,Python是一种动态类型语言,它的语法更简洁,更易于学习和使用。这使得Python在快速原型开发和小规模爬取任务上更具优势,而Java则更适合于大规模和复杂的爬取任务。
2. Java是一种编译型语言,通常比Python更快。Java爬虫可以处理更大规模的数据和更复杂的任务。然而,Python的解释器在处理简单任务和小规模数据时更加高效。
3. Java是一种跨平台语言,可以在不同的操作系统上运行。Python也是跨平台的,但在某些操作系统上可能需要额外的配置和依赖。
可以看得出Java不仅仅是可以用来写爬虫,而且在某些方面是具有优势的。
入门案例
我们以百度热搜为例,爬取热榜的信息。
依赖导入
<dependency>
<!-- jsoup HTML parser library @ https://jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.17.1</version>
</dependency>
爬虫代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
@SpringBootTest
class DemoApplicationTests {
@Test
public void test() throws IOException {
// 获取Document对象,这就是JavaScript中的Document对象
Document doc = Jsoup.connect("https://top.baidu.com/board?tab=realtime").get();
// 获取所有div标签
Elements elements = doc.getElementsByTag("div");
// 暂时将爬取的结果放入list1集合中
List<String> list1 = new ArrayList<>();
// 遍历所有Element对象,获取内容并转成字符串
for (Element element : elements) {
String s1 = element.getElementsByClass("c-single-text-ellipsis").eq(0).text();
String s2 = element.getElementsByClass("hot-desc_1m_jR large_nSuFU ").eq(0).text();
if (!s1.equals("") && !s2.equals("")) {
list1.add(s1 + "\n" + s2);
}
}
// 对爬取的内容去重
List<String> list2 = list1.stream().distinct().toList();
// 遍历打印
for (String s : list2) {
System.out.println(s);
System.out.println("====================================================================");
}
}
}
注意事项
我们直接爬取出来的数据是很乱的,需要进行数据处理。那么在爬取数据的时候具体要怎么爬,要先去分析网页的布局是什么样的,如我们案例中的:
可以看到我们要爬取的数据都是在div标签中的,并且是在class属性为"c-single-text-ellipsis"和"hot-desc_1m_jR large_nSuFU "的div标签中。所以分析是很重要的,先利用数据的特征将其爬取,然后再对数据进行处理。
爬取结果
我们可以对比着网页来看,可以看到爬取成功了。
总结
到此我们就成功利用Java实现了网络爬虫的小案例,快点自己去试试吧。当然想用好爬虫还是很难的,毕竟不是所有网站都可以随便的爬取,会有对应的反爬取措施。