获取图片主要就是通过必应图片页面控制台的元素,确认图片和标题在哪个类中(浏览器 F12)
引入依赖
这里需要引入两个依赖 jsoup 和 hutool
maven依赖网站地址:Maven Repository: Search/Browse/Explore (mvnrepository.com)
挑选使用最多的版本即可
hutool依赖
<!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all -->
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.27</version>
</dependency>
jsoup 依赖
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
查看浏览器图片的位置
这里 murl 和 turl 都可以访问,选取一个即可。
使用 jsoup 爬取
1. 首先从 jsoup 官方文档得到示例代码:jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
2. 完整代码
public class CrawlerTest {
public static void main(String[] args) throws IOException {
//搜索词,可以替换成你想搜索的词,前端传入
System.out.println("请输入想要搜索的图片:");
Scanner scanner = new Scanner(System.in);
String search = scanner.nextLine();
//拼接想要搜索的图片
String url = String.format("https://cn.bing.com/images/search?q=%s&first=1", search);
/*
简单来说,jsoup 就是爬虫,通过 jsoup 提供的 api,可以方便的获取到网页的 html 结构,
然后通过解析 html 结构,获取到我们想要的数据
connect 方法是 jsoup 提供的连接网页的方法,传入 url 即可
get 方法是 jsoup 提供的获取网页内容的方法,返回值是 Document 类型
*/
Document doc = Jsoup.connect(url).get();
/*
* 从文档中获取到所有的图片元素,通过选择器 ".iuscp.isv" 获取到所有的图片元素
* .iuscp.isv 表示的是图片元素,是上一步通过浏览器的控制台找到的
* 然后遍历这些元素,获取到图片的地址,图片名称等
*/
Elements elements = doc.select(".iuscp.isv");
for (Element element : elements) {
//获取到图片的地址
String murl = element.select(".iusc").get(0).attr("m");
/*
获取到的图片地址是 Json 格式
通过 Hutool 提供的 JSONUtil 工具类,将 Json 格式转换成 Map 格式
然后通过 Map 获取到图片的地址
注意:Hutool 是一个 Java 工具包,它封装了 Java 开发中常用的方法,
*/
Map<String, Object> map = JSONUtil.toBean(murl, Map.class);
String fmurl = (String) map.get("murl");
System.out.println(fmurl);
/*
获取图片名称和图片地址同理
通过 element.select(".inflnk") 获取到图片名称元素,通过 attr("aria-label") 获取到图片名称
*/
String pName = element.select(".inflnk").get(0).attr("aria-label");
System.out.println(pName);
}
}
}
结果展示
随便选取一个地址打开
完成。