BoostCompass(数据准备预处理模块)

在这里插入图片描述

阅读导航

  • 一、网页数据下载
  • 二、编写数据去标签与数据清洗的模块 Parser
    • ✅boost 开发库的安装
    • 1. 基本思路
    • 2. 详细讲解
      • (1)程序递归遍历目录,收集所有HTML文件的路径
      • (2)对每个HTML文件进行解析,提取出文档标题、内容和URL
      • (3)将这些信息保存到一个文本文件中,每个文档信息之间用特定分隔符隔开
  • 三、结果验证
    • 1. 编辑makefile文件
    • 2. 生成可执行程序

一、网页数据下载

🔴下载网页界面链接

在这里插入图片描述

  1. 打开了上面的网页以后下载boost_1_84_0.tar.gz压缩包就可以了。

  2. 下载以后,打开Linux建立相关目录,在这个目录下输入rz -E命令选中刚才我们下载的压缩包,把压缩包传输进Linux机器中。

  3. 在控制台输入tar xzf boost_1_84_0.tar.gz进行解压
    在这里插入图片描述

  4. 解压出来上面的这些文件,我们需要的数据是在文件夹doc/html里面,我们把它复制到我们创建的data/input文件夹里面使用cp -rf boost_1_84_0/doc/html/* data/input

  5. 把刚才解压过的文件删除了就可以了。

我们已经收集到了网页的初始信息,但是在这些信息中存在着一些无用的网页标签和其他数据,需要进行清理处理,以便我们能够更好地分析和利用这些数据。

二、编写数据去标签与数据清洗的模块 Parser

✅boost 开发库的安装

PS:我们要先在Linux机器上安装Boost库:sudo yum install -y boost-devel

1. 基本思路

  1. 程序递归遍历目录,收集所有HTML文件的路径;
  2. 对每个HTML文件进行解析,提取出文档标题、内容和URL;
  3. 将这些信息保存到一个文本文件中,每个文档信息之间用特定分隔符隔开。

✅整个处理流程由main函数协调,涉及文件操作、字符串解析和错误处理等技术,旨在高效地从HTML文件中提取结构化数据,为后续的数据使用或分析提供便利。

2. 详细讲解

(1)程序递归遍历目录,收集所有HTML文件的路径

  • 程序代码
// 遍历目录,获取所有HTML文件的路径
bool EnumFile(const std::string &src_path, std::vector<std::string> *files_list) {
    namespace fs = boost::filesystem;
    fs::path root_path(src_path);

    // 检查路径是否存在
    if (!fs::exists(root_path)) {
        std::cerr << src_path << " not exists" << std::endl;
        return false;
    }

    // 使用递归目录迭代器遍历目录
    fs::recursive_directory_iterator end;
    for (fs::recursive_directory_iterator iter(root_path); iter != end; iter++) {
        // 跳过非普通文件
        if (!fs::is_regular_file(*iter)) {
            continue;
        }
        // 跳过非HTML文件
        if (iter->path().extension() != ".html") {
            continue;
        }
        // 将HTML文件路径添加到列表中
        files_list->push_back(iter->path().string());
    }
    return true;
}

  • 代码解释

函数接受一个字符串参数src_path,这个参数表示需要遍历的目录路径。函数的返回类型是bool,表示操作的成功与否。函数还接受一个指向std::vector<std::string>的指针作为参数,这个向量用于存储找到的HTML文件路径。

在函数内部,首先创建了一个boost::filesystempath对象,用于表示传入的源路径。接着,使用fs::exists函数检查这个路径是否存在。如果路径不存在,函数输出错误信息并返回false

如果路径存在,函数使用fs::recursive_directory_iterator来创建一个迭代器,这个迭代器可以遍历目录及其所有子目录。迭代器的结束状态由end变量表示。在迭代过程中,函数检查每个文件是否是普通文件(fs::is_regular_file),如果不是,则跳过。然后,检查文件扩展名是否为.html,如果不是HTML文件,也跳过。

对于每个符合条件的HTML文件,使用iter->path().string()获取其完整的路径字符串,并将其添加到传入的files_list向量中。

(2)对每个HTML文件进行解析,提取出文档标题、内容和URL

  • 程序代码
// 辅助函数,用于解析HTML文件中的标题
static bool ParseTitle(const std::string &file, std::string *title)
{
    // 查找标题起始位置
    std::size_t begin = file.find("<title>");
    if(begin == std::string::npos){   // 如果未找到标题起始标记
        return false;    // 返回失败
    }
    // 查找标题结束位置
    std::size_t end = file.find("</title>");
    if(end == std::string::npos){   // 如果未找到标题结束标记
        return false;   // 返回失败
    }

    begin += std::string("<title>").size(); // 调整起始位置,跳过"<title>"

    if(begin > end){ // 如果起始位置在结束位置之后
        return false; // 返回失败
    }
    // 提取标题内容
    *title = file.substr(begin, end - begin);
    return true; // 返回成功
}

// 辅助函数,用于解析HTML文件中的内容(去除HTML标签)
static bool ParseContent(const std::string &file, std::string *content)
{
    //去标签,基于一个简易的状态机
    enum status{
        LABLE,   // 标签状态
        CONTENT  // 内容状态
    };

    enum status s = LABLE; // 初始化状态为标签状态
    for( char c : file){   // 遍历文件中的每个字符
        switch(s){         // 根据当前状态进行处理
            case LABLE:    // 当前状态为标签状态
                if(c == '>') s = CONTENT; // 如果遇到'>',切换到内容状态
                break;
            case CONTENT:  // 当前状态为内容状态
                if(c == '<') s = LABLE; // 如果遇到'<',切换到标签状态
                else {
                    //这里不需要保留原始文件中的\n,因为后面要用\n作为html解析之后文本的分隔符
                    if(c == '\n') c = ' '; // 将换行符替换为空格
                    content->push_back(c); // 将字符添加到内容中
                }
                break;
            default:
                break;
        }
    }

    return true; // 返回成功
}

// 辅助函数,用于构建文档的URL
static bool ParseUrl(const std::string &file_path, std::string *url)
{
    // 构造URL头部
    std::string url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";  
    // 提取URL尾部
    std::string url_tail = file_path.substr(src_path.size());
    // 拼接URL
    *url = url_head + url_tail;
    return true; // 返回成功
}

// 解析HTML文件,提取标题、内容和URL
bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results) {
    for (const std::string &file : files_list) {
        // 读取文件内容
        std::string file_content;
        if (!ns_util::FileUtil::ReadFile(file, &file_content)) {
            continue;
        }
        // 解析标题
        DocInfo_t doc;
        if (!ParseTitle(file_content, &doc.title)) {
            continue;
        }
        // 解析内容(去除HTML标签)
        if (!ParseContent(file_content, &doc.content)) {
            continue;
        }
        // 解析URL
        if (!ParseUrl(file, &doc.url)) {
            continue;
        }
        // 将解析结果添加到结果集中
        results->push_back(std::move(doc));
    }
    return true;
}
  • 代码解释
  1. ParseTitle 函数

    • 这个函数的目的是从一个HTML文件字符串中提取标题(<title>标签内的内容)。
    • 它首先查找<title>标签的开始位置,如果没有找到,返回false
    • 然后,它查找</title>标签的结束位置,如果没有找到,同样返回false
    • 如果找到了开始和结束位置,函数会计算标题的实际长度,并使用substr方法提取标题内容。
    • 最后,将提取的标题内容通过指针参数title返回,并返回true表示成功。
  2. ParseContent 函数

    • 此函数用于去除HTML文件内容中的所有标签,只保留纯文本。
    • 它使用一个简单的状态机来区分标签和内容状态。
    • 遍历文件中的每个字符,如果是标签状态(LABLE),遇到>字符则切换到内容状态(CONTENT)。
    • 在内容状态下,遇到<字符则切换回标签状态,其他字符(除了换行符\n,将其替换为空格)则添加到内容字符串中。
    • 最终,通过指针参数content返回处理后的纯文本内容,并返回true表示成功。
  3. ParseUrl 函数

    • 这个函数用于构建一个文档的完整URL。
    • 它首先定义了一个URL的基础部分,然后从文件路径中提取特定部分作为URL的尾部。
    • 通过拼接基础URL和尾部路径,构建完整的URL字符串。
    • 通过指针参数url返回构建的URL,并返回true表示成功。
  4. ParseHtml 函数

    • 这是一个整合函数,它接收一个包含HTML文件路径的向量,并返回一个包含解析结果的DocInfo_t类型的向量。
    • 对于每个文件路径,它首先读取文件内容,然后依次调用ParseTitleParseContentParseUrl函数来提取标题、内容和URL。
    • 如果任何一个步骤失败,它会跳过当前文件并继续处理下一个文件。
    • 最后,将所有解析成功的文档信息添加到结果集中,并返回true表示解析过程完成。

🍁这些函数共同工作,提供了一个从HTML文件中提取有用信息的解决方案。它们可以用于构建搜索引擎索引、内容摘要或其他需要从HTML中提取数据的场景。代码结构清晰,通过模块化的设计提高了可读性和可维护性。

(3)将这些信息保存到一个文本文件中,每个文档信息之间用特定分隔符隔开

  • 程序代码
// 保存解析结果到文件
#define SEP '\3' // 定义分隔符
bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output) {
    std::ofstream out(output, std::ios::out | std::ios::binary); // 以二进制方式进行写入
    if (!out.is_open()) {
        std::cerr << "open " << output << " failed!" << std::endl;
        return false;
    }
    // 遍历结果集,将每个文档的信息写入文件
    for (auto &item : results) {
        std::string out_string;
        out_string = item.title;
        out_string += SEP;
        out_string += item.content;
        out_string += SEP;
        out_string += item.url;
        out_string += '\n';

        out.write(out_string.c_str(), out_string.size());
    }

    out.close(); // 关闭文件
    return true;
}
  • 代码解释
  1. 定义分隔符

    • 使用预处理器指令#define定义了一个名为SEP的宏,其值为\3。这个宏用于在保存到文件的文档信息之间创建一个分隔符,以便在后续读取文件时能够区分不同的文档记录。
  2. 打开文件

    • 使用std::ofstream创建一个输出文件流out,尝试以二进制模式打开指定的输出文件。这种模式可以确保写入的数据不会被转换或解释为文本文件中的字符,而是以原始字节形式保存。
  3. 检查文件是否成功打开

    • 通过调用out.is_open()检查文件是否成功打开。如果文件没有成功打开,则输出错误信息到标准错误流std::cerr,并返回false
  4. 写入文档信息

    • 如果文件成功打开,函数遍历results向量中的每个DocInfo_t结构体。
    • 对于每个结构体,创建一个字符串out_string,并将结构体中的titlecontenturl字段依次拼接,每个字段后跟一个定义好的分隔符SEP,并在每条记录的末尾添加换行符\n
    • 使用out.write()函数将out_string的内容写入到文件中。out.write()接受两个参数:指向要写入数据的指针和要写入的字节数。
  5. 关闭文件

    • 在所有文档信息都写入文件后,调用out.close()关闭文件。这是一个好的编程实践,可以确保所有的数据都已经被刷新到磁盘,并且释放与文件相关的资源。

整体而言,SaveHtml函数负责将解析后的文档信息以一种结构化的方式保存到文件中,以便后续的处理或分析。通过使用二进制模式和特定的分隔符,该函数确保了数据的完整性和可读性。

三、结果验证

完成了上述代码后,我们的基本架构已经基本完成。接下来,我们需要编写一个名为makefile的文件,以便进行编译和验证结果。

1. 编辑makefile文件

Parser=parser

.PHONY:all
all:$(Parser)

$(Parser):parser.cpp
	$(cpp) -o $@ $^ -lboost_system -lboost_filesystem -std=c++11

.PHONY:clean
clean:
	rm -f $(Parser) 

2. 生成可执行程序

  1. 在控制台输入:make指令,会生成一个名字为parser的可执行程序
    在这里插入图片描述
  2. 输入:./parser命令,执行可执行程序
  3. 打开文件data/raw_html/raw.txt就可以看到数据处理后的结果了,如下图(PS:/3在ASCII码表中表示^c

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/530115.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【HTML】简单制作一个3D动态粒子效果的时空隧道

目录 前言 开始 HTML部分 CSS部分 效果图 总结 前言 无需多言&#xff0c;本文将详细介绍一段HTML&#xff0c;具体内容如下&#xff1a; 开始 首先新建文件夹&#xff0c;创建两个文本文档&#xff0c;其中HTML的文件名改为[index.html]&#xff0c;CSS的文件名改为[Bab…

【CPA考试】2024注册会计师报名照片尺寸要求解读及手机拍照方法

随着2024年注册会计师考试的临近&#xff0c;众多会计专业人士和学生都开始准备报名参加这一行业的重要考试&#xff0c;报名时间为4月8日至4月30日。报名过程中&#xff0c;一张符合要求的证件照是必不可少的。本文将为您详细解读2024年注册会计师考试报名照片的尺寸要求&…

Kafka基础/1

Kafka 概念 Kafka 是一个分布式的流媒体平台。 应用&#xff1a;消息系统、日志收集、用户行为追踪、流式处理 特点&#xff1a;高吞吐量、消息持久化、高可靠性、高扩展性 术语&#xff1a; broker&#xff1a;Kafka 的服务器&#xff0c;Kafka 当中每一台服务器&#xf…

网络安全---Packet Tracer - 配置扩展 ACL

一、实验目的 在Windows环境下利用Cisco Packet Tracer进行 配置防火墙操作。 二、实验环境 1.Windows10、Cisco Packet Tracer 8.2 2.相关的环境设置 在最初的时候&#xff0c;我们已经得到了搭建好的拓扑模型&#xff0c;利用已经搭建好的拓扑模型&#xff0c;进行后续的…

SOLIDWORKS如何新建定义材质库

SolidWorks材质库中包含了大量的材料选项&#xff0c;涵盖了金属、塑料、橡胶、复合材料等各种类型&#xff0c;每种材料都有详细的特性参数。用户可以根据设计需求&#xff0c;在材质库中选择合适的材料&#xff0c;从而更好地满足设计要求。在有限元分析中&#xff0c;需要附…

【架构师】-- 成长路线图

成长为软件架构师不是一件容易的事&#xff0c;这篇文章列举了架构师需要学习的技术储备&#xff0c;给出了成为软件架构师的路线图&#xff0c;帮助有志于在架构领域成长的同学可以明确学习的方向。原文&#xff1a;Master Plan for becoming a Software Architect[1] 软件架…

easyExcel - 动态复杂表头的编写

目录 前言一、情景介绍二、问题分析三、代码实现方式一&#xff1a;head 设置方式二&#xff1a;模板导出方式三&#xff1a;自定义工具类 前言 Java-easyExcel入门教程&#xff1a;https://blog.csdn.net/xhmico/article/details/134714025 之前有介绍过如何使用 easyExcel&…

LeetCode_144(二叉树前序遍历)

1.递归 public List<Integer> preorderTraversal(TreeNode root) {List<Integer> res new ArrayList<>();accessTree(root,res);return res;}public void accessTree(TreeNode root,List<Integer>res){if(root null){return;}res.add(root.val);acce…

Redis 八种常用数据类型常用命令和应用场景

5 种基础数据类型&#xff1a;String&#xff08;字符串&#xff09;、List&#xff08;列表&#xff09;、Set&#xff08;集合&#xff09;、Hash&#xff08;散列&#xff09;、Zset&#xff08;有序集合&#xff09;。 3 种特殊数据类型&#xff1a;HyperLogLog&#xff0…

计算机视觉——Python OpenCV BGR转HSV

这里将介绍如何使用 OpenCV 与 Python 来作彩色影像转HSV(RGB to HSV 或 BGR to HSV)&#xff0c;在写 Python 影像处理程序时常会用到 OpenCV cvtColor 作颜色空间转换的功能&#xff0c;接下来介绍怎么使用 Python 搭配 OpenCV 模块来进行 RGB/BGR 转 HSV 彩色转HSV空间。 H…

03 Php学习:echo 、 print 、EOF

echo 和 print 在 PHP 中有两个基本的输出方式&#xff1a; echo 和 print。 echo 和 print 区别: echo - 可以输出一个或多个字符串print - 只允许输出一个字符串&#xff0c;返回值总为 1 注意&#xff1a;echo 输出的速度比 print 快&#xff0c; echo 没有返回值&…

VS Code开发插件使用 pnpm 打包异常的解决姿势

前言 刚刚准备发一个插件&#xff0c;发现用 pnpm 打出一个本地插件包直接扑街了。 这里只聚焦错误问题的解决&#xff0c;不是发插件的教程。。 聊点背景信息&#xff0c;vscode 的插件命令行的是 vsce 这个模块提供的 cli 能力去做的 环境 pnpm : 8.x 错误截图 本地打…

C++ Virtual详解

Virtual是C OO机制中很重要的一个关键字。只要是学过C的人都知道在类Base中加了Virtual关键字的函数就是虚拟函数&#xff08;例如函数print&#xff09;&#xff0c;于是在Base的派生类Derived中就可以通过重写虚拟函数来实现对基类虚拟函数的覆盖。当基类Base的指针point指向…

LRU算法的实现

目录 一&#xff0c;LRU算法 二&#xff0c;使用场景 三&#xff0c;LRU算法实现 一&#xff0c;LRU算法 LRU-least recently used-最近最少使用算法&#xff0c;是一种内存数据淘汰策略&#xff0c;使用常见是当内存不足时&#xff0c;需要淘汰最近最少使用的数据。LRU常用…

Mac 安装 brew brew cask 遇到的问题以及解决办法

安装Homebrew和Homebrew Cask是在Mac上管理软件包的常用方法。虽然大多数情况下安装这两个工具是比较简单的&#xff0c;但有时候也可能遇到一些问题。下面是一些常见的问题以及解决办法&#xff1a; 问题1&#xff1a;无法安装Homebrew 解决办法&#xff1a; 1.确保你的Mac已连…

4月9日学习记录

[GXYCTF 2019]禁止套娃 涉及知识点&#xff1a;git泄露&#xff0c;无参数RCE 打开环境&#xff0c;源码什么的都没有&#xff0c;扫描后台看看 扫描发现存在git泄露 用githack下载查看得到一串源码 <?php include "flag.php"; echo "flag在哪里呢&#…

REST API实战演练之JavaScript使用Rest API

咱们前面讲了一下如何创建REST API 假期别闲着&#xff1a;REST API实战演练之创建Rest API-CSDN博客 又讲了java客户端如何使用REST API 假期别闲着&#xff1a;REST API实战演练之客户端使用Rest API-CSDN博客 接下来咱们看看JavaScript怎么使用REST API。 一、新建一个…

swiftui macOS实现加载本地html文件

import SwiftUI import WebKitstruct ContentView: View {var body: some View {VStack {Text("测试")HTMLView(htmlFileName: "localfile") // 假设你的本地 HTML 文件名为 index.html.frame(minWidth: 100, minHeight: 100) // 设置 HTMLView 的最小尺寸…

权威报道 | 百分点科技:《突发事件应急预案管理办法》解读

近日&#xff0c;百分点科技CTO刘译璟作为唯一企业界代表&#xff0c;接受应急领域权威期刊——《中国应急管理》杂志邀请&#xff0c;与中国安全生产科学研究院、中央党校、中国政法大学等单位的专家一起&#xff0c;就《突发事件应急预案管理办法》&#xff08;以下简称《办法…