如何将xps文件转换为txt文件?xps转为pdf,pdf转为txt,提取pdf表格并转为txt

文章目录

  • xps转txt
    • 方法一
    • 方法二
  • pdf转txt
    • 整页转txt
    • 提取pdf表格,并转为txt
  • 总结
  • 另外参考
      • XPS文件转换为TXT文件
      • XPS文件转换为PDF文件
      • PDF文件转换为TXT文件
      • 提取PDF表格并转为TXT
      • 示例代码(部分)

本文测试代码已上传,路径如下:
https://download.csdn.net/download/y601500359/90312050
xps部分内容如图
在这里插入图片描述

xps转txt

使用XpsDocument 类。
命名空间:System.Windows.Xps.Packaging
程序集:ReachFramework.dll

方法一

        public static string XpsToText(string strXpsPath)
        {
            try
            {
                if (!File.Exists(strXpsPath))
                    return "";
                string strContent = "";
                System.Windows.Xps.Packaging.XpsDocument _xpsDocument = new System.Windows.Xps.Packaging.XpsDocument(strXpsPath, System.IO.FileAccess.Read);
                IXpsFixedDocumentSequenceReader fixedDocSeqReader = _xpsDocument.FixedDocumentSequenceReader;

                IXpsFixedDocumentReader _document = fixedDocSeqReader.FixedDocuments[0];


                StringBuilder _currentText = new StringBuilder();
                for (int i = 0; i < _document.FixedPages.Count; i++)
                {
                    IXpsFixedPageReader _page = _document.FixedPages[i];

                    System.Xml.XmlReader _pageContentReader = _page.XmlReader;


                    if (_pageContentReader != null)
                    {
                        while (_pageContentReader.Read())
                        {
                            if (_pageContentReader.Name == "Glyphs")
                            {
                                if (_pageContentReader.HasAttributes)
                                {
                                    string strAtti;
                                    for (int ii = 0; ii < _pageContentReader.AttributeCount; ii++)
                                    {
                                        strAtti = _pageContentReader[ii];
                                    }
                                    if (_pageContentReader.GetAttribute("UnicodeString") != null)
                                    {
                                        _currentText.Append(_pageContentReader.GetAttribute("UnicodeString"));
                                    }
                                }
                            }
                        }
                    }
                }
                strContent = _currentText.ToString();
                _xpsDocument.Close();
                return strContent;
            }
            catch
            {
                return "";
            }
        }

方法二

 public static string ReadXps(string strXpsPath)
        {
            StringBuilder sb = new StringBuilder();
            //读取文档
            XpsDocument xpsDocument = new XpsDocument(strXpsPath, FileAccess.Read);
            //
            var reader = xpsDocument.FixedDocumentSequenceReader;
            //循环文档
            foreach (var document in reader.FixedDocuments)
            {
                //循环页
                foreach (var page in document.FixedPages)
                {
                    //读取XML内容
                    XmlReader xrdr = page.XmlReader;
                    while (xrdr.Read())
                    {
                        switch (xrdr.NodeType)
                        {
                            case XmlNodeType.Element:
                                if (xrdr.Name == "Glyphs")
                                {
                                    sb.Append(xrdr["UnicodeString"]);
                                    sb.Append("\n");
                                }
                                break;
                            case XmlNodeType.Whitespace:
                                //sb.Append(",");
                                break;
                            default:
                                //sb.Append("-");
                                break;
                        }
                    }
                }
            }
            return sb.ToString();
        }

在这里插入图片描述

pdf转txt

整页转txt

static void ConvertPdf2Txt(string filename)
{
    // 创建PdfDocument对象并加载PDF文件
    PdfDocument doc = new PdfDocument();
    doc.LoadFromFile(filename);

    // 创建 StringBuilder 对象
    StringBuilder builder = new StringBuilder();

    // 初始化 PdfTableExtractor 类的实例
    PdfTableExtractor extractor = new PdfTableExtractor(doc);


    //提取PDF所有页面的文本
    string strtxt;
    foreach (PdfPageBase page in doc.Pages)
    {
        builder.Append(page.ExtractText());
        //PdfTextExtractor txtExtractor = new PdfTextExtractor(page);
        strtxt = page.ExtractText();
    }

    //将提取到的文本写为.txt格式并保存到本地路径
    string strPath = filename.Substring(0, filename.LastIndexOf(".") + 1) + "txt";
    File.WriteAllText(strPath, builder.ToString());

    doc.Close();
}

在这里插入图片描述

提取pdf表格,并转为txt

static void ConvertPdf2Txt(string filename)
{
    // 创建PdfDocument对象并加载PDF文件
    PdfDocument doc = new PdfDocument();
    doc.LoadFromFile(filename);

    // 创建 StringBuilder 对象
    StringBuilder builder = new StringBuilder();

    // 初始化 PdfTableExtractor 类的实例
    PdfTableExtractor extractor = new PdfTableExtractor(doc);

    // 声明 PdfTable 数组
    PdfTable[] tableList = null;

    int tableCount = 1;
    //将提取到的文本写为.txt格式并保存到本地路径
    string strPath = filename.Substring(0, filename.LastIndexOf(".") + 1) + "txt";

    // 循环遍历页面
    for (int pageIndex = 0; pageIndex < doc.Pages.Count; pageIndex++)
    {
        // 从特定页面提取表格
        tableList = extractor.ExtractTable(pageIndex);

        // 判断表格列表是否为空
        if (tableList != null && tableList.Length > 0)
        {
            // 遍历列表中的表格
            foreach (PdfTable table in tableList)
            {
                // 获取特定表格的行数和列数
                int row = table.GetRowCount();
                int column = table.GetColumnCount();

                // 遍历行和列
                for (int i = 0; i < row; i++)
                {
                    for (int j = 0; j < column; j++)
                    {
                        // 获取特定单元格的文本
                        string text = table.GetText(i, j);

                        if(text.IndexOf('\n') > 0)
                        {
                            text = Regex.Replace(text, @"[\n]", "");
                        }

                        // 将文本添加到 StringBuilder 中并添加制表符
                        builder.Append(text + "\t");
                    }
                    builder.Append("\r\n");
                }

                // 写入 .txt 文件
                File.WriteAllText(strPath, builder.ToString());
                tableCount += 1;
            }
        }
    }
    doc.Close();
}

在这里插入图片描述

总结

从上述操作可以看出,由于xps文件的特殊性,如果文本内容出现换行,是无法检测的,而且如果直接通过xps文件读取为txt文件,格式会比较乱,如果想要格式尽量不乱,那么可以先转换为pdf文件,然后再通过pdf文件转换为txt。
其中如果pdf提取表格,可以进一步优化表格对齐内容,其中关键代码位置如下图,所以如果想要将xps文件转换为txt,甚至是csv或者excel,可以合理利用一下上述思路。
在这里插入图片描述

另外参考

在C#中,处理不同文件格式(如XPS、PDF和TXT)的转换和表格提取是一个复杂且通常需要依赖第三方库的任务。以下是如何在C#中实现这些操作的概述:

XPS文件转换为TXT文件

  1. 将XPS转换为PDF(如果需要中间格式):

    • 可以使用System.Printing.PrintQueueXpsDocumentWriter类将XPS文件打印到PDF打印机(如果安装了支持PDF的打印机驱动程序)。
    • 或者,使用第三方库如Xps2PdfDinoPDF等来进行转换。
  2. 将PDF转换为TXT

    • 使用PDF解析库(如iTextSharpPdfSharpAspose.PDFMuPDF的.NET绑定等)来读取PDF内容。
    • 解析PDF文本内容,可能需要处理PDF中的文本布局、字体和编码。
    • 将解析后的文本写入TXT文件。

由于直接从XPS到TXT的转换较为罕见,且中间可能需要处理复杂的格式和布局,因此通常建议先将XPS转换为PDF,再从PDF中提取文本。

XPS文件转换为PDF文件

如上所述,可以使用System.Printing.PrintQueueXpsDocumentWriter类将XPS文件打印到PDF打印机,或者使用第三方库进行转换。

PDF文件转换为TXT文件

  • 使用PDF解析库读取PDF内容。
  • 遍历PDF页面,提取文本。
  • 将文本写入TXT文件。

提取PDF表格并转为TXT

  • 使用PDF解析库读取PDF内容。
  • 分析PDF中的文本和布局,识别表格结构(这可能需要自定义逻辑,因为PDF不是为表格数据设计的格式)。
  • 提取表格数据。
  • 将表格数据格式化为TXT格式(例如,使用逗号、制表符或其他分隔符分隔单元格)。

示例代码(部分)

以下是一个使用iTextSharp库从PDF中提取文本的简单示例:

using System;
using System.IO;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

class Program
{
    static void Main()
    {
        string pdfPath = "path/to/your/pdf/file.pdf";
        string txtPath = "path/to/your/output/file.txt";

        using (FileStream stream = new FileStream(pdfPath, FileMode.Open, FileAccess.Read))
        {
            PdfReader reader = new PdfReader(stream);
            using (StreamWriter writer = new StreamWriter(txtPath))
            {
                for (int i = 1; i <= reader.NumberOfPages; i++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
                    writer.WriteLine(text);
                }
            }
        }

        Console.WriteLine("PDF text extracted to TXT file.");
    }
}

请注意,这个示例代码仅用于从PDF中提取纯文本,并不处理表格提取的复杂逻辑。对于表格提取,您可能需要进一步分析PDF的布局和文本内容,这通常是一个更加复杂和耗时的过程。

此外,由于处理PDF和XPS文件通常涉及复杂的格式和布局,因此强烈建议使用成熟的第三方库,并仔细阅读其文档和示例代码,以了解如何处理这些文件格式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/959919.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】线程、线程控制、地址空间布局

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;Linux 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 1、Linux线程1.1 线程的优缺点1.2 线程异常和用途1.3 线程等待1.3 线程终止1.4 线程分离1.5 线程ID和地址空间布局1.6 线程栈 1、…

c语言操作符(详细讲解)

目录 前言 一、算术操作符 一元操作符&#xff1a; 二元操作符&#xff1a; 二、赋值操作符 代码例子&#xff1a; 三、比较操作符 相等与不相等比较操作符&#xff1a; 大于和小于比较操作符&#xff1a; 大于等于和小于等于比较操作符&#xff1a; 四、逻辑操作符 逻辑与&…

宏_wps_宏修改word中所有excel表格的格式_设置字体对齐格式_删除空行等

需求&#xff1a; 将word中所有excel表格的格式进行统一化&#xff0c;修改其中的数字类型为“宋体&#xff0c; 五号&#xff0c;右对齐&#xff0c; 不加粗&#xff0c;不倾斜”&#xff0c;其中的中文为“宋体&#xff0c; 五号&#xff0c; 不加粗&#xff0c;不倾斜” 数…

第一届“启航杯”网络安全挑战赛WP

misc PvzHE 去这个文件夹 有一张图片 QHCTF{300cef31-68d9-4b72-b49d-a7802da481a5} QHCTF For Year 2025 攻防世界有一样的 080714212829302316092230 对应Q 以此类推 QHCTF{FUN} 请找出拍摄地所在位置 柳城 顺丰 forensics win01 这个软件 云沙盒分析一下 md5 ad4…

GESP2024年3月认证C++六级( 第三部分编程题(2)好斗的牛)

参考程序&#xff08;暴力枚举&#xff09; #include <iostream> #include <vector> #include <algorithm> using namespace std; int N; vector<int> a, b; int ans 1e9; int main() {cin >> N;a.resize(N);b.resize(N);for (int i 0; i &l…

QFramework实现原理 一 :日志篇

作为一款轻量级开源的Unity程序框架&#xff0c;QFramework结合了作者凉鞋多年的开发经验&#xff0c;是比较值得想要学习框架的初学者窥探一二的对象&#xff0c;我就尝试结合凉鞋大大给出的文档和ai&#xff0c;解析一下其背后的代码逻辑&#xff0c;以作提升自己的一次试炼 …

图论汇总1

1.图论理论基础 图的基本概念 二维坐标中&#xff0c;两点可以连成线&#xff0c;多个点连成的线就构成了图。 当然图也可以就一个节点&#xff0c;甚至没有节点&#xff08;空图&#xff09; 图的种类 整体上一般分为 有向图 和 无向图。 有向图是指 图中边是有方向的&a…

_CLASSDEF在C++中的用法详解及示例

_CLASSDEF在C++中的用法详解及示例 _CLASSDEF的定义与使用示例说明代码解析总结在C++编程中,宏(Macro)是一种预处理指令,它允许程序员在编译之前对代码进行文本替换。_CLASSDEF是一个自定义的宏,它提供了一种便捷的方式来定义类及其相关类型。本文将详细介绍_CLASSDEF在C+…

华为数据之道-读书笔记

内容简介 关键字 数字化生产 已经成为普遍的商业模式&#xff0c;其本质是以数据为处理对象&#xff0c;以ICT平台为生产工具&#xff0c;以软件为载体&#xff0c;以服务为目的的生产过程。 信息与通信技术平台&#xff08;Information and Communication Technology Platf…

从CRUD到高级功能:EF Core在.NET Core中全面应用(四)

初识表达式树 表达式树&#xff1a;是一种可以描述代码结构的数据结构&#xff0c;它由一个节点组成&#xff0c;节点表示代码中的操作、方法调用或条件表达式等&#xff0c;它将代码中的表达式转换成一个树形结构&#xff0c;每个节点代表了代码中的操作例如&#xff0c;如果…

系统思考—问题分析

很多中小企业都在面对转型的难题&#xff1a;市场变化快&#xff0c;资源有限&#xff0c;团队协作不畅……这些问题似乎总是困扰着我们。就像最近和一位企业主交流时&#xff0c;他提到&#xff1a;“我们团队每天都很忙&#xff0c;但效率始终没见提升&#xff0c;感觉像是在…

MySQL 的索引类型【图文并茂】

基本分类 文本生成MindMap:https://app.pollyoyo.com/planttext <style> mindmapDiagram {node {BackgroundColor yellow}:depth(0) {BackGroundColor SkyBlue}:depth(1) {BackGroundColor lightGreen} } </style> * MySQL 索引** 数据结构角度 *** B树索引*** 哈…

华硕笔记本装win10哪个版本好用分析_华硕笔记本装win10专业版图文教程

华硕笔记本装win10哪个版本好用&#xff1f;华硕笔记本还是建议安装win10专业版。Win分为多个版本&#xff0c;其中家庭版&#xff08;Home&#xff09;和专业版&#xff08;Pro&#xff09;是用户选择最多的两个版本。win10专业版在功能以及安全性方面有着明显的优势&#xff…

【深度学习】 自动微分

自动微分 正如上节所说&#xff0c;求导是几乎所有深度学习优化算法的关键步骤。 虽然求导的计算很简单&#xff0c;只需要一些基本的微积分。 但对于复杂的模型&#xff0c;手工进行更新是一件很痛苦的事情&#xff08;而且经常容易出错&#xff09;。 深度学习框架通过自动…

虚幻浏览器插件 UE与JS通信

温馨提示&#xff1a;本节内容需要结合插件Content下的2_Communication和Resources下的sample.html 一起阅读。 1. UE调用JS 1.1 JS脚本实现 该部分共两步: 导入jstote.js脚本实现响应函数并保存到 ue.interface 中 jsfunc 通过json对象传递参数&#xff0c;仅支持函数名小…

CDN、源站与边缘网络

什么是“源站” 源服务器 源服务器的目的是处理和响应来自互联网客户端的传入请求。源服务器的概念通常与边缘服务器或缓存服务器的概念结合使用。源服务器的核心是一台运行一个或多个程序的计算机&#xff0c;这些程序旨在侦听和处理传入的客户端请求。源服务器可以承担为网…

数据库、数据仓库、数据湖有什么不同

数据库、数据仓库和数据湖是三种不同的数据存储和管理技术&#xff0c;它们在用途、设计目标、数据处理方式以及适用场景上存在显著差异。以下将从多个角度详细说明它们之间的区别&#xff1a; 1. 数据结构与存储方式 数据库&#xff1a; 数据库主要用于存储结构化的数据&…

Java Swing 基础组件详解 [论文投稿-第四届智能系统、通信与计算机网络]

大会官网&#xff1a;www.icisccn.net Java Swing 是一个功能强大的 GUI 工具包&#xff0c;提供了丰富的组件库用于构建跨平台的桌面应用程序。本文将详细讲解 Swing 的基础组件&#xff0c;包括其作用、使用方法以及示例代码&#xff0c;帮助你快速掌握 Swing 的核心知识。 一…

Mac m1,m2,m3芯片使用nvm安装node14报错

使用nvm安装了node 12/16/18都没有问题&#xff0c;到14就报错了。第一次看到这个报错有点懵&#xff0c;查询资料发现是Mac芯片的问题。 Issue上提供了两个方案&#xff1a; 1、为了在arm64的Mac上安装node 14&#xff0c;需要使用Rosseta&#xff0c;可以通过以下命令安装 …

多模态论文笔记——ViViT

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细解读多模态论文《ViViT: A Video Vision Transformer》&#xff0c;2021由google 提出用于视频处理的视觉 Transformer 模型&#xff0c;在视频多模态领域有…