Python读取Excel工作表数据写入CSV、XML、文本

Excel工作簿是常用的表格格式,许多数据呈现、数据分析和数据汇报都是以Excel工作表的形式进行。然而,在实际的数据管理、分析或自动化流程构建过程中,我们常常需要将这些Excel中的数据迁移至更其他数据系统,或者以文本形式存储以便与其他程序进行交互。Python作为一种强大且灵活的编程语言,能够高效地实现这一目标。本文将演示如何运用Python编程语言,将Excel工作表中的丰富数据导入到CSV、XML或文本中,我们也可以使用文中的方法读取数据并写入到其他文件或数据系统中。

文章目录

    • 直接将Excel工作表转换为CSV
    • 读取Excel工作表数据保存到CSV
    • 将Excel工作簿转换为OpenXML
    • 读取Excel工作表数据写入XML
    • 读取Excel工作表数据保存为文本

本文所使用的方法需要用到Spire.XLS for Python,可从官网获取或通过PyPI:pip install Spire.XLS

示例Excel文件

Python读取Excel文件

直接将Excel工作表转换为CSV

使用此API,我们可以直接获取指定工作表并转换为CSV文件。以下是操作步骤:

  1. 导入所需模块。
  2. 创建 Workbook 类的对象 wb
  3. 使用 wb.LoadFromFile() 方法加载指定路径下的Excel文件。
  4. 获取指定索引位置处的工作表 ws
  5. 使用 Worksheet.SaveToFile(string fileName, string Separator, Encoding) 方法将工作表转换为CSV文件并保存。
  6. 释放资源。

代码示例

from spire.xls import *
from spire.xls.common import *

# 创建 Workbook 对象
wb = Workbook()

# 加载 Excel 文件
wb.LoadFromFile("示例.xlsx")

# 获取工作表
ws = wb.Worksheets.get_Item(0)

# 将工作表保存为 CSV 文件
ws.SaveToFile(f"output/{ws.Name}.csv", ",", Encoding.get_UTF8())
wb.Dispose()

提取结果

Python Excel工作表转CSV

读取Excel工作表数据保存到CSV

除了直接转换外,我们还可以直接读取指定单元格范围的数据,并写入CSV文件,来实现自定义的数据提取。以下是操作步骤:

  1. 导入所需模块。
  2. 创建 Workbook 类的对象 wb
  3. 使用 wb.LoadFromFile() 方法加载指定路径下的Excel文件。
  4. 获取指定索引位置处的工作表 ws
  5. 确定工作表的已使用范围(即有数据的部分)作为 usedRange
  6. 遍历 usedRange 中的每一行和每一列:
    • 获取单元格的值,并对包含逗号的字符串单元格值添加双引号。
    • 将处理过的单元格值添加到 rowData 列表中。
  7. 对每一行的 rowData 列表进行处理,将其转换为逗号分隔的字符串,并在末尾添加换行符,然后将结果追加到 data 字符串中。
  8. 打开一个CSV文件(以当前工作表名称命名),以写模式和UTF-8编码将 data 字符串内容写入该文件。
  9. 使用 wb.Dispose() 方法释放资源,清理内存。

代码示例

from spire.xls import *
from spire.xls.common import *

# 创建 Workbook 对象
wb = Workbook()

# 加载 Excel 文件
wb.LoadFromFile("示例.xlsx")

# 获取工作表
ws = wb.Worksheets.get_Item(0)

# 获取已使用的区域
usedRange = ws.AllocatedRange

data = ""
# 遍历已使用的区域
for i in range(1, usedRange.Rows.Count):
    rowData = []
    for j in range(len(usedRange.Rows.get_Item(i).Columns)):
        # 获取单元格的值
        cellValue = usedRange[i + 1, j + 1].Value
        # 对包含逗号的数据添加引号
        if isinstance(cellValue, str) and ',' in cellValue:
            cellValue = f'"{cellValue}"'
        rowData.append(cellValue)
    data += ','.join(rowData) + '\n'

# 将数据写入 CSV 文件
with open(f"output/CSV/{ws.Name}.csv", "w", encoding='utf-8') as f:
    f.write(data)
wb.Dispose()

提取效果

Python读取Excel工作表写入CSV

将Excel工作簿转换为OpenXML

使用 Workbook 类的 SaveAsXml 方法可以直接将一个工作簿转换为Open XML文件。以下是操作步骤:

  1. 导入所需模块。
  2. 创建 Workbook 类的对象 wb
  3. 使用 wb.LoadFromFile() 方法加载指定路径下的Excel文件。
  4. 使用 Workbook.SaveAsXml() 方法将工作簿转换为Open XML文件并保存。
  5. 释放资源。

代码示例

from spire.xls import *
from spire.xls.common import *

# 创建 Workbook 对象
wb = Workbook()

# 加载 Excel 文件
wb.LoadFromFile("示例.xlsx")

# 保存为 OpenXML 文件
wb.SaveAsXml("output/工作簿转OpenXML.xml")
wb.Dispose()

提取效果

Python Excel转换为Open XML

读取Excel工作表数据写入XML

除了将工作簿直接转换为Open XML文件外,我们还可以读取表格数据,制作自定义的XML文件。我们可以引入 xml.etree.ElementTree 来方便对XML的写入。以下是操作示例:

  1. 导入所需模块。
  2. 创建 Workbook 类的对象 wb
  3. 使用 wb.LoadFromFile() 方法加载指定路径下的Excel文件。
  4. 获取工作表 ws,其索引为0。
  5. 获取工作表中的已使用区域 usedRange
  6. 创建 XML 的根元素 root,命名为 “Worksheet”。
  7. 在 XML 根元素下创建子元素 “Name”,并将其文本内容设置为当前工作表的名称。
  8. 遍历已使用的区域(按行):
    • 对于每一行,创建一个 “Row” 子元素。
    • 再对该行的每个单元格进行遍历(按列):
      • 获取单元格的值。
      • 在 “Row” 元素下创建一个 “Cell” 子元素。
      • 在 “Cell” 元素下进一步创建一个 “Data” 子元素,将单元格值转换为字符串并设置为其文本内容。
  9. 将所有生成的 XML 元素构建成一个完整的 XML 树结构,存储在 xml_tree 变量中。
  10. 使用 xml_tree.write() 方法将 XML 数据写入名为 “工作表写入XML.xml” 的文件中,同时指定 UTF-8 编码和添加 XML 声明。
  11. 最后,调用 wb.Dispose() 方法释放资源,关闭并清理 Excel 工作簿对象。

代码示例

import xml.etree.ElementTree as ET
from spire.xls import *
from spire.xls.common import *

# 创建 Workbook 对象
wb = Workbook()

# 加载 Excel 文件
wb.LoadFromFile("示例.xlsx")

# 获取工作表
ws = wb.Worksheets.get_Item(0)

# 获取已使用的区域
usedRange = ws.AllocatedRange

# 创建 XML 根元素
root = ET.Element("Worksheet")

# 设置工作表名称
name_element = ET.SubElement(root, "Name")
name_element.text = ws.Name

# 遍历已使用的区域
for i in range(1, usedRange.Rows.Count):
    row_element = ET.SubElement(root, "Row")
    for j in range(len(usedRange.Rows.get_Item(i).Columns)):
        # 获取单元格的值
        cellValue = usedRange[i + 1, j + 1].Value
        # 创建单元格元素
        cell_element = ET.SubElement(row_element, "Cell")
        # 创建数据元素
        data_element = ET.SubElement(cell_element, "Data")
        data_element.text = str(cellValue)

# 创建 XML 文档
xml_tree = ET.ElementTree(root)
# 将数据写入 XML 文件
xml_tree.write("output/XML/工作表写入XML.xml", encoding="utf-8", xml_declaration=True)
wb.Dispose()

代码示例
Python读取Excel写入XML

读取Excel工作表数据保存为文本

我们还可以直接读取表格文件写入普通文本文件,用于其他用途。以下是操作步骤:

  1. 导入模块。
  2. 初始化一个新的 Workbook 实例 wb
  3. 使用 wb.LoadFromFile() 函数加载 Excel 文件。
  4. 选取第一个工作表(索引为0),赋值给变量 ws
  5. 获取该工作表的已使用区域,存放在变量 usedRange 中。
  6. 初始化一个空字符串 data,用于收集所有单元格的数据。
  7. 遍历已使用的行与列范围:
    • 对于每一行(从第二行开始计数,因为Excel索引从1开始):
      • 对于该行内的每一个单元格:
        • 获取单元格的值,并将其转换为字符串形式,追加到 data 后面。
        • 如果当前单元格不是本行的最后一个单元格,则在其后添加制表符 \t 分隔数据。
      • 完成一行的所有单元格之后,在 data 后面添加换行符 \n,以便在输出时区分不同行的数据。
  8. 使用 with open() 语句以“写入”模式打开一个新文件,文件名基于当前工作表的名称加上 .txt 扩展名,且路径设为 “output/” 目录下。
  9. 将之前拼接好的包含所有单元格数据的字符串 data 写入所创建的文本文件中。
  10. 关闭文件流,确保数据成功写入。
  11. 调用 wb.Dispose() 方法释放资源,关闭并清理 Excel 工作簿对象。

代码示例

from spire.xls import *
from spire.xls.common import *

# 创建 Workbook 对象
wb = Workbook()

# 加载 Excel 文件
wb.LoadFromFile("示例.xlsx")

# 获取工作表
ws = wb.Worksheets.get_Item(0)

# 获取已使用的区域
usedRange = ws.AllocatedRange

data = ""
# 遍历已使用的区域
for i in range(1, usedRange.Rows.Count):
    for j in range(len(usedRange.Rows.get_Item(i).Columns)):
        # 获取单元格的值
        cellValue = usedRange[i + 1, j + 1].Value
        data += str(cellValue)
        if j < len(usedRange.Rows.get_Item(i).Columns) - 1:
            data += "\t"
    data += "\n"

# 将数据写入 CSV 文件
with open(f"output/{ws.Name}.txt", "w", encoding='utf-8') as f:
    f.write(data)
wb.Dispose()

提取结果

Python读取Excel工作表写入文本文件

以上内容演示了如何使用Python读取Excel数据并写入到CSV、XML和文本文件中。
更多Excel操作文章
申请免费License

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/460132.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI日报:欧盟人工智能法案通过后行业面临合规障碍

文章目录 人工智能新规对web爬网的影响对英国的影响。 人工智能新规 立法者已经通过了欧盟人工智能法案。企业现在必须确保其人工智能应用程序符合规则。 全面的新规定对可能影响公民权利的人工智能系统实施制裁&#xff0c;并有可能彻底禁止某些系统。 违反规定的公司可能面…

4、鸿蒙学习-@ohos.promptAction (弹窗)

创建并显示文本提示框、对话框和操作菜单。 说明 本模块首批接口从API version 9开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 该模块不支持在UIAbility的文件声明处使用&#xff0c;即不能在UIAbility的生命周期中调用&#xff0c;需要在创建…

音频占用磁盘空间太多 需要把mp3音频转aac音频缩小占用空间 应该怎么操作?

一&#xff1a;什么是aac格式&#xff1f; aac是一种音频压缩格式&#xff0c;它是MPEG-2标准下的一种音频压缩方式&#xff0c;也可以作为HE-AAC&#xff0c;AAC或AAC-LC格式使用&#xff0c;是音频压缩领域中的一种重要格式。与MP3的比较&#xff0c;aac在保证音质的同时可以…

C++类与对象二

目录 一、类的嵌套 二、对象引用私有数据成员 通过公有函数为私有成员赋值 利用指针访问私有数据成员 利用函数访问私有数据成员 利用引用访问私有数据成员 三、成员函数重载 四、this指针 一、类的嵌套 #include <iostream> using namespace std;class CC1 { p…

Tomcat会话保持

文章目录 Tomcat会话保持1、代理服务器配置2、web服务器配置3、会话保持3.1 方法一&#xff1a;修改代理服务器配置&#xff08;nginx&#xff09;3.2 方法二&#xff1a;修改web服务器配置&#xff08;tomcat&#xff09;访问官方文档&#xff0c;查看需要添加的配置文件修改t…

C++STL栈与队列的实现

我最近开了几个专栏&#xff0c;诚信互三&#xff01; > |||《算法专栏》&#xff1a;&#xff1a;刷题教程来自网站《代码随想录》。||| > |||《C专栏》&#xff1a;&#xff1a;记录我学习C的经历&#xff0c;看完你一定会有收获。||| > |||《Linux专栏》&#xff1…

【Streamlit学习笔记】实现包含多个sheet的excel文件下载

1、什么是Streamlit Streamlit是一个免费的开源框架&#xff0c;用于快速构建和共享漂亮的机器学习和数据科学Web应用程序&#xff0c;官网链接 Streamlit Streamlit API链接 API reference 实际项目中遇到的问题&#xff1a;包含多个sheet的excel文件下载&#xff0c;下面将给…

STM32初识2

复位和时钟控制&#xff08;RCC&#xff1a;reset clock control&#xff09; 系统复位 当发生以下任一事件时&#xff0c;产生一个系统复位&#xff1a; 1. NRST 引脚上的低电平 ( 外部复位 ) 2. 窗口看门狗计数终止 (WWDG 复位 ) 3. 独立看门狗计数终止 (IWDG 复位 ) …

【JAVA基础】API:Math、System、runtime、object、BigInteger 、BigDecima、爬虫、分组、时间类、包装类

1.Math 2.System public class Main {public static void main(String[] args) {int[] arr {1, 2, 3, 4, 5, 6, 7, 8};int[] arr1 new int[8];System.arraycopy(arr,0,arr1,1,5); // 从1970.1.1开始到现在的毫秒形式long l1 System.currentTimeMillis();//171046475…

HandyControl PropertyGrid及自定义编辑器

前提条件 项目引入对应HandyControl对应版本包。 使用案例 UI部分 <Window xmlns:hc"https://handyorg.github.io/handycontrol"><hc:TabControl><hc:TabItem Header"默认样式"><hc:PropertyGrid Width"380" SelectedO…

huawei services HK华为云服务

huaweiserviceshk是一种云计算服务&#xff0c;为华为云服务用户提供了多种服务&#xff0c;包括云服务器、数据库、存储、网络等&#xff0c;用户可以根据自己的需求选择不同的服务并支付相应的费用 如何付费呢&#xff0c;这里可以使用441112&#xff0c;点击获取 卡片信息在…

swiftUI中的可变属性和封装

swiftUI的可变属性 关于swift中的属性&#xff0c;声明常量使用let &#xff0c; 声明变量使用var 如果需要在swiftUI中更改视图变化那么就需要在 var前面加上state 。 通过挂载到state列表 &#xff0c;从而让xcode找到对应的改变的值 例子&#xff1a; import SwiftUIstruc…

前端组件化:构建高效应用的艺术

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

点的基本操作

点的基本操作 要求 提供空间点数据文本文件&#xff0c;包含ID、name、X、Y四个字段信息&#xff0c; 1&#xff09;读取数据&#xff0c;并且在窗口中显示点的具体位置&#xff0c;用实心圆绘制。 2&#xff09;鼠标任意点击三个点&#xff0c;将点连线&#xff0c;用黑色笔…

微服务技术栈SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式(五):分布式搜索 ES-中

文章目录 一、DSL查询文档1.1 简单查询1.2 复合查询 二、搜索结果处理三、RestClient演示 查询与结果分析四、案例4.1 问题解析4.2 代码4.2.1 实体bean4.2.2 控制层4.2.3 业务service4.2.4 启动类 一、DSL查询文档 1.1 简单查询 # 1. DSL查询 # 1.1 查询所有GET /hotel/_searc…

Github和TeamCity的持续集成构建

一、简介 TeamCity是JetBrains旗下的一款持续集成[Continuous Integration&#xff0c;简称CI]工具&#xff0c;开箱即用。TeamCity提供一系列特性可以让团队快速实现持续集成&#xff1a;IDE工具集成、各种消息通知、各种报表、项目的管理、分布式的编译等等。 二、安装使用(…

【Maven学习笔记】Maven入门教程(适合新手反复观看学习)

Maven学习笔记 Maven的简要介绍Maven的安装和配置Maven的安装Maven安装的常用配置 Maven的使用入门编写pom编写主代码编写测试代码打包和运行使用Archetype生成项目骨架 Maven核心概念的阐述坐标案例分析依赖依赖的范围传递性依赖依赖范围依赖调节可选依赖Maven依赖常用的技巧 …

关于python中数据分析的一些函数

首先先下载numpy函数库 如果使用的pycharm软件&#xff0c;可在设置中下载&#xff0c;在Python interpreter设置里&#xff0c;点击号&#xff0c;搜索numpy点击下载即可 第一部分 1.array()函数 这是一个将类似数组的数据转为数组的函数&#xff0c;我们还可以控制其数组的…

KMP 算法介绍

1. KMP 算法介绍 KMP 算法&#xff1a;全称叫做 「Knuth Morris Pratt 算法」&#xff0c;是由它的三位发明者 Donald Knuth、James H. Morris、 Vaughan Pratt 的名字来命名的。KMP 算法是他们三人在 1977 年联合发表的。 KMP 算法思想&#xff1a;对于给定文本串 T 与模式串 …

Adobe PDF背景设置护眼模式,缓解眼部疲劳

一、背景 在用Adobe PDF看论文时&#xff0c;默认的白色背景看久了&#xff0c;眼睛会特别疲劳&#xff0c;下面介绍如何设置背景为护眼模式。 二、设置PDF为护眼模式 使用Adobe Acrobat Pro DC打开任意PDF文件&#xff0c;在上方工具栏选择“编辑”&#xff0c;在下拉菜单栏…