JavaSE 利用正则表达式进行本地和网络爬取数据(爬虫)

爬虫

正则表达式的作用

作用1:校验字符串是满足规则

作用2:在一段文本中查找满足需要的内容

本地爬虫和网络爬虫

Pattern类 表示正则表达式

Matter类 文本编译器,作用按照正则表达式的规则去读取字符串,从头开始读取,在大串中去找符合匹配规则的子串

方法底层会根据find方法记录的索引进行字符串的截取

subString(起始索引,结束索引)

包头不包尾

爬取第一个

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {
    public static void main(String[] args) {

        String str="Java自从问世以来,经历了很多版本,目前企业中" +
                "用的最多的是Java8和Java11,因为这两个是长期支" +
                "持的版本,下一个长期支持的版本是Java17,相信在" +
                "未来不久Java17也会逐渐登上历史舞台";

        //创建Partton类 表示正则表达式
        //Matter类  文本编译器,作用按照正则表达式的规则去读取字符串
        //从头开始读取,在大串中去找符合匹配规则的子串

        Pattern p=Pattern.compile("Java\\d{0,2}");
        Matcher m= p.matcher(str);

        m.find();
        //拿着文本匹配器从头开始读取,查找是否有满足规则的子串
        //返回值true false
        //还会记录子串的起始索引 结束索引+1

        //方法底层会根据find方法记录的索引进行字符串的截取
        //subString(起始索引,结束索引)
        //包头不包尾
        String s=m.group();
        System.out.println(s);


    }
}

依次爬取


import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {
    public static void main(String[] args) {

        String str="Java自从问世以来,经历了很多版本,目前企业中" +
                "用的最多的是Java8和Java11,因为这两个是长期支" +
                "持的版本,下一个长期支持的版本是Java17,相信在" +
                "未来不久Java17也会逐渐登上历史舞台";

        //method(str);

        //获得正则表达式的对象
        Pattern p=Pattern.compile("Java\\d{0,2}");

        //获得文本匹配器的对象
        //拿着m去读取str 找符合p规则的子串
        Matcher m= p.matcher(str);

        //用循环爬取
        while(m.find()){
            String s=m.group();
            System.out.println(s);
        }
    }

    private static void method(String str) {
        //创建Partton类 表示正则表达式
        //Matter类  文本编译器,作用按照正则表达式的规则去读取字符串
        //从头开始读取,在大串中去找符合匹配规则的子串

        Pattern p=Pattern.compile("Java\\d{0,2}");
        Matcher m= p.matcher(str);

        m.find();
        //拿着文本匹配器从头开始读取,查找是否有满足规则的子串
        //返回true false
        //还会记录子串的起始索引 结束索引+1

        //方法底层会根据find方法记录的索引进行字符串的截取
        //subString(起始索引,结束索引)
        //包头不包尾
        String s=m.group();
        System.out.println(s);
    }
}

爬取网站中的内容

有条件的爬取数据

定义正则表达式

String regex ="Java(?=8|11|17)"

?表示前面的数据Java (替代的占位符)

=表示在Java后面要跟随的数据

这样写的意思是,在获取的时候,只获取前半部分

先获取到正则表达式的对象

再传递给文本解析器对象

Pattern p = Pattern.compile(regex);
Matcher m=p.matcher(str);

最后用文本解析器调用方法

while(m.find){
    m.group();
}

find()

如果找到了

方法返回值为true

并且把字符串始末索引加一后进行记录

group()

会按照find记录的索引去记录字符串

((?i)Java)表示不计Java的大小写

需求1

需求2

需求3

!表示非

贪婪爬取和非贪婪爬取

贪婪爬取:在爬取数据的时候尽可能多获取数据

非贪婪爬取:在爬取数据的时候尽可能少获取数据

正则表达式在字符串方法中的使用

练习

快捷键ctr l + p查看方法参数

[\ \w && [ ^ _ ]]+

在前面的范围中去掉下划线_ 得到数字和字母至少出现一次

replaceAll()方法

this表示当前方法调用者的地址值

方法在底层跟之前一样也会创建文本解析器的对象

然后从头开始去读取字符串中的内容,只要有满足的

那么就用第二个参数去替换

split()方法

按照正则表达式下刀切割 在放入字符串数组 返回

在API文档中查找

个人号推广

博客主页

多多!-CSDN博客

Web后端开发

https://blog.csdn.net/qq_30500575/category_12624592.html?spm=1001.2014.3001.5482

Web前端开发

https://blog.csdn.net/qq_30500575/category_12642989.html?spm=1001.2014.3001.5482

数据库开发

https://blog.csdn.net/qq_30500575/category_12651993.html?spm=1001.2014.3001.5482

项目实战

https://blog.csdn.net/qq_30500575/category_12699801.html?spm=1001.2014.3001.5482

算法与数据结构

https://blog.csdn.net/qq_30500575/category_12630954.html?spm=1001.2014.3001.5482

计算机基础

https://blog.csdn.net/qq_30500575/category_12701605.html?spm=1001.2014.3001.5482

回忆录

https://blog.csdn.net/qq_30500575/category_12620276.html?spm=1001.2014.3001.5482

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/728349.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

永磁同步电机最大转矩电流比(MTPA)与弱磁(FW)算法以及模型设计

永磁同步电机数学模型如下: 上式中: vd为 d 轴电压(V)。 vq为 q 轴电压(V)。 id为 d 轴电流(A)。 iq为 q 轴电流(A)。 Rs为定子相绕组电阻(Ω…

SM9加密算法:安全、高效的国产密码技术

随着信息技术的飞速发展,网络安全问题日益凸显。加密算法作为保障信息安全的核心技术,受到了广泛关注。在我国,一种名为SM9的加密算法逐渐崭露头角,凭借其卓越的安全性能和高效计算能力,成为了新一代国产密码技术的代表…

【鸿蒙】HUAWEI DevEco Studio安装

HUAWEI DevEco Studio介绍 面向HarmonyOS应用及元服务开发者提供的集成开发环境(IDE), 助力高效开发。 DevEco Studio当前最新版本是: 3.1。 DevEco Studio计划里程碑 版本类型说明 下载 下载网址:DevEco Studio安装包官⽅下载 双击运行…

2024广东省职业技能大赛云计算赛项实战——编排部署ERP管理系统

编排部署ERP管理系统 前言 编写docker-compose.yaml文件,要求使用镜像mysql、redis、nginx和erp完成ERP管理系统的编排部署。 编写docker-compose.yaml完成ERP管理系统的部署,要求定义mysql、redis、nginx和erp共四个Service,分别使用镜像e…

前端 CSS 经典:flex + margin 布局

前言&#xff1a;如今我们布局大多时候都是用的 flex 布局&#xff0c;但是有时我们也可以使用 margin 小技巧去完成布局。在弹性盒中当我们把 margin 某一个方向上设置为 auto&#xff0c;他的含义是用 margin 吃掉这个方向的剩余空间。 1. 元素垂直和水平居中 <!DOCTYPE…

微软TTS最新模型,发布9种更真实的AI语音

很高兴与大家分享 Azure AI 语音翻译产品套件的两个重大更新&#xff1a; 视频翻译和增强的实时语音翻译 API。 视频翻译&#xff08;批量&#xff09; 今天&#xff0c;我们宣布推出视频翻译预览版&#xff0c;这是一项突破性的服务&#xff0c;旨在改变企业本地化视频内容…

《车载以太网通信测试》课程来袭!!!

本课程包含教程和脚本两部分内容。 教程 详细介绍以太网&#xff0c;如何理解TCP/IP协议&#xff0c;CAPL中涉及以太网的代码&#xff0c;以太网测试环境如何搭建&#xff0c;从物理层、链路层、网络层、传输层到应用层多种协议测试点的测试原理和测试方法介绍&#xff0c;中…

基于微信共享充电桩小程序毕业设计作品成品(3)开发技术文档_充电桩小程序前端技术栈

后台管理系统文件 所在路径&#xff1a;后台源码ht目录是后台 绿色显示的是系统框架&#xff0c;不要动 位置程序名说明源码根目录login.php后台登录页面源码根目录check_u_login.php后台登录处理程序ht 后台根目录index.php后台首页left.php后台左侧菜单u_logout.php退出登…

LeetCode 算法:K 个一组翻转链表 c++

原题链接&#x1f517;&#xff1a;K 个一组翻转链表 难度&#xff1a;困难⭐️⭐️⭐️ 题目 给你链表的头节点 head &#xff0c;每 k 个节点一组进行翻转&#xff0c;请你返回修改后的链表。 k 是一个正整数&#xff0c;它的值小于或等于链表的长度。如果节点总数不是 k …

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验5 交换机的自学习算法

一、实验目的 1.验证交换机的自学习算法&#xff1b; 2.了解交换机对帧的过滤特性&#xff1b; 3.学习交换机如何登记接收到的数据包&#xff1b; 4.学习交换机如何转发数据包&#xff08;明确转发&#xff0c;盲目转发&#xff0c;丢弃&#xff09;。 二、实验要求 1.使用Cisc…

前端:2024年非常受欢迎非常火的 VueUI 库

目录 1、iView | 参考地址 2、Vux UI | 参考地址 3、Element UI | 参考地址 4、Mint UI | 参考地址 5、Bootstrap | 参考地址 6、Ant Design Vue | 参考地址 7、Vue Material | 参考地址 8、Vuetify | 参考地址 9、 Vuesax | 参考地址 10、Buefy | 参考地址 11、Va…

分布式理论与设计 四、分布式系统设计策略

在分布式环境下&#xff0c;有几个问题是普遍关心的&#xff1a; 如何检测当前节点还活着&#xff1f;如何保障高可用&#xff1f;容错处理负载均衡 1.心跳检测 在分布式环境中&#xff0c;我们提及过存在非常多的节点&#xff08;Node&#xff09;。那么就有一个非常重要的…

抉择与未来:高考后专业与学校的深度选择思考

引言 随着2024年高考的尘埃落定&#xff0c;数百万考生及其家庭正面临一个至关重要的决策&#xff1a;在有限的分数条件下&#xff0c;是优先选择专业还是学校&#xff1f;这一选择不仅影响着个人的未来职业道路&#xff0c;也关系到大学生活的质量和个人综合素质的培养。本文将…

C++ | Leetcode C++题解之第171题Excel表列序号

题目&#xff1a; 题解&#xff1a; class Solution { public:int titleToNumber(string columnTitle) {int number 0;long multiple 1;for (int i columnTitle.size() - 1; i > 0; i--) {int k columnTitle[i] - A 1;number k * multiple;multiple * 26;}return num…

ubuntu16因swap分区uuid错误启动慢排查

感觉ubuntu16启动特别慢 dmesg查看如下&#xff1a; [ 10.050123] audit: type1400 audit(1718608189.395:11): apparmor"STATUS" operation"profile_load" profile"unconfined" name"webbrowser-app//oxide_helper" pid708 comm&q…

Spring Boot轻松整合Minio实现文件上传下载功能

一、Linux 安装Minio 安装 在/root/xxkfz/soft目录下面创建文件minio文件夹&#xff0c;进入minio文件夹&#xff0c;并创建data目录&#xff1b; [rootxxkfz soft]# mkdir minio [rootxxkfz soft]# cd minio [rootxxkfz minio]# mkdir data执行如下命令进行下载 [rootxxkfz…

系统架构师考点--操作系统

大家好。今天我们来说一下操作系统考点&#xff0c;这部分考点出现在上午场考试&#xff0c;一般占3-5分左右。 一、操作系统概述 操作系统是指能有效地组织和管理系统中的各种软/硬件资源&#xff0c;合理地组织计算机系统工作流程&#xff0c;控制程序的执行&#xff0c;并…

【Python机器学习实战】 | 基于线性回归以及支持向量机对汽车MPG与自重进行回归预测

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…

Java | Leetcode Java题解之第171题Excel表列序号

题目&#xff1a; 题解&#xff1a; class Solution {public int titleToNumber(String columnTitle) {int number 0;int multiple 1;for (int i columnTitle.length() - 1; i > 0; i--) {int k columnTitle.charAt(i) - A 1;number k * multiple;multiple * 26;}ret…

nvdiadocker相关配置S3Gaussian

https://download.csdn.net/download/sinat_21699465/89458214 dockerfile文件参考&#xff1a; https://download.csdn.net/download/sinat_21699465/89458214 prework&#xff1a; 显卡驱动决定了cuda版本支持的上限。例如nvdia535驱动最高支持cuda12.2所以显卡驱动版本选…