RAG数据拆分之PDF

  1. 引言
  2. RAG数据简介
  3. PDF解析方法及工具
  4. 代码实现
  5. 总结

二、正文内容

  1. 引言

本文将介绍如何将RAG数据拆分至PDF格式,并探讨PDF解析的方法和工具,最后提供代码示例。

  1. RAG数据简介

RAG(关系型属性图)是一种用于表示实体及其关系的图数据结构。在RAG中,节点表示实体,边表示实体之间的关系,属性则用于描述实体和边的特征。

  1. PDF解析方法及工具

(1)PDF解析方法

  • DOM解析:将PDF文档转换为树形结构,便于操作和遍历。
  • SAX解析:基于事件驱动,适用于处理大型PDF文档。

(2)PDF解析工具

  • PyPDF2:一个Python库,用于读取、分割、合并PDF文件。
  • PDFMiner:一个强大的PDF解析库,支持提取文本、图片等元素。
  • pdfplumber:一个专注于文本提取的PDF解析库。
  1. 代码实现

以下是一个使用PyPDF2将RAG数据拆分至PDF的示例代码:

import PyPDF2

# 读取PDF文件
with open('source.pdf', 'rb') as file:
    reader = PyPDF2.PdfFileReader(file)
    num_pages = reader.numPages

    # 遍历每一页
    for page_num in range(num_pages):
        page = reader.getPage(page_num)
        text = page.extractText()

        # 拆分RAG数据
        # 假设RAG数据以特定格式存储,例如:实体1-关系-实体2
        entities = text.split('-')

        # 创建新的PDF文件
        pdf_writer = PyPDF2.PdfFileWriter()
        pdf_writer.addPage(page)

        with open(f'output/page_{page_num + 1}.pdf', 'wb') as output_file:
            pdf_writer.write(output_file)

print('PDF文件拆分完成!')

解析表格:

def extract_continuous_tables(pdf, start_page_num):
    """
    从指定页开始提取连续的表格内容
    :param pdf: PDF文档对象
    :param start_page_num: 开始页码
    :return: 包含处理页码和表格文本的字典
    """
    continuous_tables = []  # 存储连续表格内容
    processed_pages = []  # 存储处理过的页码
    current_page_num = start_page_num

    # 添加起始页
    processed_pages.append(current_page_num)

    while current_page_num < len(pdf.pages):
        current_page = pdf.pages[current_page_num]
        current_page = remove_header_footer(current_page)

        # 提取当前页的表格
        current_tables = current_page.extract_tables()
        if current_tables:
            # 将当前页的表格添加到结果中
            continuous_tables.extend(current_tables)

        # 检查是否还有下一页
        if current_page_num + 1 >= len(pdf.pages):
            break

        # 获取下一页内容
        next_page = pdf.pages[current_page_num + 1]
        next_page = remove_header_footer(next_page)

        # 提取下一页的内容
        next_page_tables = next_page.extract_tables()
        next_page_words = next_page.extract_words(keep_blank_chars=True, extra_attrs=['fontname', 'size'])

        # 过滤页眉页脚
        header_height = 50
        footer_height = 50

        def is_header_content(word):
            text = word['text'].lower()

            # 位置检查
            if word['top'] <= header_height or word['top'] >= (next_page.height - footer_height):
                return True

            # 电话号码模式
            phone_patterns = [
                r'tel[\s:]*[\d\-/]+',
                r'电话[\s:]*[\d\-/]+',
                r'传真[\s:]*[\d\-/]+',
                r'fax[\s:]*[\d\-/]+',
                r'\d{2,4}[\-/]\d{4,8}',  # 匹配常见电话号码格式
            ]

            # 使用正则表达式匹配
            import re
            if any(re.search(pattern, text, re.IGNORECASE) for pattern in phone_patterns):
                return True

            # 页眉特征检查
            header_features = [
                # 位置特征
                word['top'] < header_height * 1.2,  # 稍微放宽高度限制
                word['size'] < 10,  # 字体较小

                # 内容特征
                any(pattern in text for pattern in [
                    '页码', '第', '页', 'page',
                    'copyright', '版权所有',
                    '机密', '保密',
                    '草稿', 'draft',
                    '文档编号', 'doc',
                    '日期', 'date'
                ]),

                # 格式特征
                bool(re.match(r'.*\d+.*页', text)),  # 包含页码
                bool(re.match(r'.*\d{4}[-/]\d{1,2}[-/]\d{1,2}', text)),  # 日期格式
            ]

            return any(header_features)

        # 过滤词
        filtered_words = [
            word for word in next_page_words
            if not is_header_content(word)
        ]

        # 如果需要,还可以按垂直位置排序
        filtered_words.sort(key=lambda x: x['top'])

        # 判断下一页是否以表格开始
        starts_with_table = False
        if filtered_words and next_page_tables:  # 确保有文字和表格
            try:
                if next_page_tables[0] and next_page_tables[0][0]:  # 确保表格有内容
                    # 获取第一个表格的位置
                    first_table = next_page.find_tables()[0]
                    if first_table:
                        first_table_top = first_table.bbox[1]

                        # 获取第一个文字的位置
                        first_word_top = filtered_words[0]['top']

                        # 如果表格在文字之前,则认为页面以表格开始
                        if first_table_top < first_word_top:
                            starts_with_table = True
            except (IndexError, AttributeError):
                starts_with_table = False

        if not starts_with_table:
            # 如果下一页不是以表格开始,则结束提取
            break

        # 继续处理下一页
        current_page_num += 1
        processed_pages.append(current_page_num)

    # 将表格转换为文本
    table_texts = []
    for table in continuous_tables:
        if table:
            table_text = []
            for row in table:
                # 过滤None和空字符串,并确保所有值都转换为字符串
                row_text = []
                for cell in row:
                    if cell is not None and str(cell).strip():
                        cell_str = str(cell).strip().replace("\n", "    ")
                        # if cell_str:  # 只添加非空字符串
                        row_text.append(cell_str)
                    else:
                        row_text.append(" ")  # 将None转换为空字符串

                if row_text:  # 只添加非空行
                    table_text.append('##'.join(row_text))

            filtered_table_text = [row for row in table_text if '##' in row]
            if filtered_table_text:
                table_texts.append('\n'.join(filtered_table_text))

    # 返回包含页码列表和表格文本的字典
    result = {
        'processed_pages': processed_pages,
        'table_text': '\n\n'.join(table_texts) if table_texts else ""
    }

    return result

1.pdfplumber
https://blog.csdn.net/fuhanghang/article/details/122579548
1
pdfplumber的主要类和方法


pdfplumber对于表格的提取
参考https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-ca-warn-report.ipynb
1
代码:

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")
p0=pdf.pages[0]
im = p0.to_image()  #display 第一页
table = p0.extract_table() 抽取其中最大的表格

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
for column in ["Effective", "Received"]:
    df[column] = df[column].str.replace(" ", "")  使用panda来吧table抽取到的数据转成dataFrame格式

  1. 总结

本文介绍了RAG数据拆分至PDF的方法和工具,并通过代码示例展示了如何使用PyPDF2进行PDF文件拆分。在实际应用中,可根据需求选择合适的解析方法和工具。

希望这个分享笔记大纲和代码示例能帮助你完成你的分享笔记。在实际编写过程中,可以根据具体需求进行调整和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/926371.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Postman设置接口关联,实现参数化

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 postman设置接口关联 在实际的接口测试中&#xff0c;后一个接口经常需要用到前一个接口返回的结果&#xff0c; 从而让后一个接口能正常执行&#xff0c;这…

不玩PS抠图了,改玩Python抠图

网上找了两个苏轼的印章图片&#xff1a; 把这两个印章抠出来的话&#xff0c;对于不少PS高手来说是相当容易&#xff0c;但是要去掉其中的水印&#xff0c;可能要用仿制图章慢慢描绘&#xff0c;图章的边缘也要慢慢勾画或者用通道抠图之类来处理&#xff0c;而且印章的红色也不…

构造函数与析构函数错题汇总

构造函数不能定义返回类型&#xff0c;也没有返回类型。 堆、栈、静态存储区。栈上的对象main函数结束就释放&#xff0c;堆上的需要手动释放&#xff0c;静态存储区的在所在作用域的程序结束时释放。这里static在main函数内&#xff0c;是局部变量&#xff0c;所以作用域为…

模拟器快速上手,助力HarmonyOS应用/服务高效开发

文章目录 1 创建模拟器1&#xff09;打开设备管理界面2&#xff09;设置本地模拟器实例存储路径3&#xff09;创建一个模拟器&#xff08;1&#xff09;选择模拟器设备&#xff08;2&#xff09;创建模拟器&#xff08;3&#xff09;启动模拟器&#xff08;4&#xff09;关闭模…

如何估算自然对流传热系数

介绍 一般来说&#xff0c;对流可以定义为通过加热流体&#xff08;例如空气或水&#xff09;的运动来传递热量的过程。 自然对流&#xff08;对流的一种特定类型&#xff09;可以定义为流体在重力作用下由于较热因此密度较小的物质上升&#xff0c;而较冷且密度较大的物质下…

【Git 工具】用 IntelliJ IDEA 玩转 Git 分支与版本管理

文章目录 一、使用 IDEA 配置和操作 Git1.1 查看 Idea 中的 Git 配置1.2 克隆 Github 项目到本地 二、版本管理2.1 提交并推送修改2.2 拉取远程仓库2.3 查看历史2.4 版本回退 三、分支管理3.1 新建分支3.2 切换分支3.2 合并分支3.4 Cherry-Pick 参考资料 一、使用 IDEA 配置和操…

本地学习axios源码-如何在本地打印axios里面的信息

1. 下载axios到本地 git clone https://github.com/axios/axios.git 2. 下载react项目, 用vite按照提示命令配置一下vite react ts项目 npm create vite my-vue-app --template react 3. 下载koa, 搭建一个axios请求地址的服务端 a.初始化package.json mkdir koa-server…

【深度学习基础】预备知识 | 微积分

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上&#xff0c;结合当代大数据和大算力的发展而发展出来的。深度学习最重…

微信小程序构建npm失败,没有找到可以构建的npm包

方法&#xff1a;打开终端输入 npm init -y npm install 或 yarn install我用 npm install 下载后并没有出现node_modules, 又用 yarn install 下载&#xff0c;成功了 下载好后&#xff0c;在project.config.json文件添加 "showShadowRootInWxmlPanel": true, …

Ubuntu 24.04使用docker安装Node-Red

Node-Red是开源是可视化的流计算软件&#xff0c;在Ubuntu 24.04版本下&#xff0c;很容易通过docker进行安装。 本人环境信息如下&#xff1a; Welcome to Ubuntu 24.04.1 LTS (GNU/Linux 6.8.0-45-generic x86_64)ubuntupascalming-ubuntu:~$ docker -v Docker version 24.0…

11.26深度学习_神经网络-数据处理

一、深度学习概述 1. 什么是深度学习 ​ 人工智能、机器学习和深度学习之间的关系&#xff1a; ​ 机器学习是实现人工智能的一种途径&#xff0c;深度学习是机器学习的子集&#xff0c;区别如下&#xff1a; ​ 传统机器学习算法依赖人工设计特征、提取特征&#xff0c;而深…

Kotlin的object修饰符定义类似Java的静态类/静态方法

Kotlin的object修饰符定义类似Java的静态类/静态方法 //类似Java的static类 object StaticCls {//类似Java静态变量private var num 0//类似Java的静态方法fun updateVal(n: Int) {num n}fun getVal(): Int {return num} }class MyTest() {fun setVal() {StaticCls.updateVal…

接口隔离原则理解和实践

在软件开发中&#xff0c;设计原则是指导我们编写高质量代码的重要准则。接口隔离原则&#xff08;Interface Segregation Principle, ISP&#xff09;是面向对象设计原则中的一条重要原则。ISP原则指出&#xff0c;客户端不应该依赖它不需要的接口&#xff0c;类间的依赖关系应…

SQL进阶——C++与SQL进阶实践

在C开发中&#xff0c;SQL数据库的操作是开发者常见的任务之一。虽然前面我们已经介绍了如何在C中通过数据库连接执行基本的SQL查询&#xff0c;但在实际项目中&#xff0c;我们通常需要更加复杂和高效的数据库操作。存储过程与函数的调用、复杂SQL查询的编写、以及动态构造SQL…

JVM 性能调优 -- JVM常用调优工具【jps、jstack、jmap、jstats 命令】

前言&#xff1a; 前面我们分析怎么去预估系统资源&#xff0c;怎么去设置 JVM 参数以及怎么去看 GC 日志&#xff0c;本篇我们分享一些常用的 JVM 调优工具&#xff0c;我们在进行 JVM 调优的时候&#xff0c;通常需要借助一些工具来对系统的进行相关分析&#xff0c;从而确定…

Mongo操作手册

Mongo数据类型 在Mongodb中&#xff0c;可以使用数字代码和别名作为过滤条件查询文档。在聚合操作中&#xff0c;可以获取字段类型的别名。或者根据返回的字段类型实现不同的逻辑。 //使用字符串"array"和数字类型4查询字段类型是数组的数据 db.collection.find({&l…

HBU深度学习作业9

1. 实现SRN &#xff08;1&#xff09;使用Numpy实现SRN import numpy as npinputs np.array([[1., 1.],[1., 1.],[2., 2.]]) # 初始化输入序列 print(inputs is , inputs)state_t np.zeros(2, ) # 初始化存储器 print(state_t is , state_t)w1, w2, w3, w4, w5, w6, w7, …

智能堆叠,集群和IRF

堆叠和IRF其实可以近似看成同一种技术&#xff0c;只是华三叫IRF&#xff0c;华为叫智能堆叠 智能堆叠&#xff08;iStack&#xff09;&#xff1a;支持堆叠特性的交换机通过堆叠线缆连接在一起&#xff0c;从逻辑上变成一台交换设备&#xff0c;作为一个整体参与数据转发&…

三维渲染中顺序无关的半透明混合(OIT)(二——Stencil Route)

1、A-Buffer算法。 在谈到Stencil Route之前&#xff0c;需要先讨论A-Buffer算法。A-Buffer是一种图形学&#xff08;渲染方向&#xff09;上的用于可见面分析(Visble Surface Detection)的技术&#xff0c;是Z-Buffer的衍生方法。 Z-Buffer是用于剔除 不透明 物体的算法。假…

transformers bert-base-uncased情感分析

一、使用huggingface中的预训练模型&#xff0c;先要安装transformers、torch和SentencePiece pip install transformers pip install torch pip install SentencePiece 手动下载&#xff1a;https://huggingface.co/google-bert/bert-base-uncased/tree/main 添加以目录&…