[python3]Excel解析库-xlrd

      `xlrd` 是一个用于从 Excel 文件中读取数据的 Python 库,主要用于处理 `.xls` 文件(即 Excel 97-2003 格式)。它允许你用 Python 编写程序来解析和提取 Excel 文件中的信息,而无需实际运行 Microsoft Excel 应用程序。需要注意的是,从版本 2.0.0 开始,`xlrd` 不再支持读取 `.xls` 文件,只支持 `.xlsx` 文件格式。如果你需要读取 `.xls` 文件,应该安装低于 2.0.0 版本的 `xlrd`。

安装

要使用 `xlrd`,你可以通过 pip 来安装它。对于 `.xlsx` 文件的支持,请确保安装的是低于 2.0.0 的版本:

```bash
pip3 install xlrd<2.0.0
```

如果你只需要处理 `.xls` 文件,则可以直接安装最新版本的 `xlrd`:

```bash
pip3 install xlrd
```

基本用法

#### 打开和读取 `.xls` 文件

以下是如何使用 `xlrd` 读取 `.xls` 文件并获取其中的数据:

```python
import xlrd

# 打开工作簿
workbook = xlrd.open_workbook('example.xls')

# 获取所有的工作表名称
sheet_names = workbook.sheet_names()
print(f"Sheet names: {sheet_names}")

# 选择第一个工作表
sheet = workbook.sheet_by_index(0)

# 或者根据名称选择工作表
# sheet = workbook.sheet_by_name('Sheet1')

# 遍历所有行
for row_idx in range(sheet.nrows):
    print(sheet.row_values(row_idx))  # 输出每一行的所有单元格值
```

#### 处理特定单元格的数据

你可以直接访问特定单元格的数据,或者遍历一行或多列的数据:

```python
# 获取特定单元格的值
cell_value = sheet.cell(0, 0).value
print(f"Value at A1: {cell_value}")

# 获取某一行或某一列的数据
row_data = sheet.row_values(0)  # 获取第一行的数据
col_data = sheet.col_values(0)  # 获取第一列的数据
print(f"Row data: {row_data}")
print(f"Column data: {col_data}")
```

#### 读取日期和时间

`xlrd` 可以正确地处理 Excel 中的日期和时间格式,并将其转换为 Python 的 `datetime` 对象:

```python
from datetime import datetime, timedelta

def convert_excel_date(excel_date):
    """将 Excel 的日期序列号转换为 Python 的 datetime"""
    if excel_date > 60:
        excel_date -= 1  # 调整1900年2月29日的问题
    return datetime(1899, 12, 30) + timedelta(days=excel_date)

# 假设 A1 单元格包含一个日期
excel_date = sheet.cell(0, 0).value
if isinstance(excel_date, float):  # 确保是数字类型的日期
    python_date = convert_excel_date(excel_date)
    print(f"Converted date: {python_date.strftime('%Y-%m-%d')}")
```

### 注意事项

- **版本兼容性**:如前所述,确保使用正确的 `xlrd` 版本来匹配你需要处理的文件格式。
- **性能问题**:对于非常大的 Excel 文件,`xlrd` 可能会遇到性能瓶颈,因为它需要将整个文件加载到内存中进行处理。
- **替代方案**:如果你正在寻找更现代的方法来处理 Excel 文件,特别是 `.xlsx` 文件,可以考虑使用 `openpyxl` 或 `pandas` 等库,它们提供了更好的性能和支持更多功能。

### 示例:完整代码示例

以下是一个完整的例子,演示了如何使用 `xlrd` 读取 `.xls` 文件并打印出其内容:

```python
import xlrd
from datetime import datetime, timedelta

def read_excel(file_path):
    # 打开工作簿
    workbook = xlrd.open_workbook(file_path)

    # 获取所有的工作表名称
    sheet_names = workbook.sheet_names()
    print(f"Sheet names: {sheet_names}")

    # 选择第一个工作表
    sheet = workbook.sheet_by_index(0)

    # 遍历所有行并打印出来
    for row_idx in range(sheet.nrows):
        row_data = sheet.row_values(row_idx)
        print(row_data)

        # 如果有日期数据,尝试转换为 Python 的 datetime
        for col_idx, cell_value in enumerate(row_data):
            if isinstance(cell_value, float):  # 检查是否可能是日期
                try:
                    python_date = convert_excel_date(cell_value)
                    print(f"Cell ({row_idx}, {col_idx}) as date: {python_date.strftime('%Y-%m-%d')}")
                except Exception as e:
                    print(f"Failed to convert cell ({row_idx}, {col_idx}): {e}")

def convert_excel_date(excel_date):
    """将 Excel 的日期序列号转换为 Python 的 datetime"""
    if excel_date > 60:
        excel_date -= 1  # 调整1900年2月29日的问题
    return datetime(1899, 12, 30) + timedelta(days=excel_date)

if __name__ == "__main__":
    file_path = 'example.xls'
    read_excel(file_path)
```

总结

`xlrd` 是一个简单易用的库,适用于需要读取 `.xls` 文件的应用场景。然而,考虑到它对较新文件格式的支持有限以及可能存在的性能问题,在选择工具时应该权衡项目的长期需求和技术栈的选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/950969.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python学习(八)——异常处理】

Python学习&#xff08;八&#xff09;——异常处理 本文介绍了异常处理的知识&#xff0c;仅作为本人学习时记录&#xff0c;感兴趣的初学者可以一起看看&#xff0c;欢迎评论区讨论&#xff0c;一起加油鸭~~~ 心中默念&#xff1a;Python 简单好学&#xff01;&#xff01;&…

Python 爬虫验证码识别

在我们进行爬虫的过程中&#xff0c;经常会碰到有些网站会时不时弹出来验证码识别。我们该如何解决呢&#xff1f;这里分享 2 种我尝试过的方法。 0.验证码示例 1.OpenCV pytesseract 使用 Python 中的 OpenCV 库进行图像预处理&#xff08;边缘保留滤波、灰度化、二值化、…

[离线数仓] 总结二、Hive数仓分层开发

接 [离线数仓] 总结一、数据采集 5.8 数仓开发之ODS层 ODS层的设计要点如下: (1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。 (2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比率,较高的,此处选择gzip。 CompressedStorage - Apache Hive - Apac…

GraphQL:强大的API查询语言

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

vue js实现时钟以及刻度效果

2025.01.08今天我学习如何用js实现时钟样式&#xff0c;效果如下&#xff1a; 一、html代码如下&#xff1a; <template><!--圆圈--><div class"notice_border"><div class"notice_position notice_name_class" v-for"item in …

Docker入门之docker基本命令

Docker入门之docker基本命令 官方网站&#xff1a;https://www.docker.com/ 1. 拉取官方镜像并创建容器&#xff08;以redis为例&#xff09; 拉取官方镜像 docker pull redis# 如果不需要添加到自定义网络使用这个命令&#xff0c;如需要&#xff0c;直接看第二步 docker r…

“深入浅出”系列之FFmpeg:(1)音视频开发基础

我的音视频开发大部分内容是跟着雷霄骅大佬学习的&#xff0c;所以笔记也是跟雷老师的博客写的。 一、音视频相关的基础知识 首先播放一个视频文件的流程如下所示&#xff1a; FFmpeg的作用就是将H.264格式的数据转换成YUV格式的数据&#xff0c;然后SDL将YUV显示到电脑屏幕上…

【JAVA基础】Collections方法的具体使用方法

java基础中Collections及collect(toList,toSet,toMap)的用法 package com.gaofeng;import java.util.*; import java.util.function.Function; import java.util.stream.Collectors; import java.util.stream.Stream;public class demo01 {public static void main(String[] …

深度学习知识点:RNN

文章目录 1.简单介绍2.网络结构3.应对梯度消失 1.简单介绍 循环神经网络&#xff08;RNN&#xff0c;Recurrent Neural Network&#xff09;是一类用于处理序列数据的神经网络。与传统网络相比&#xff0c;变化不是特别大&#xff0c;不如CNN的变化那么大。 为什么要有循环神经…

超完整Docker学习记录,Docker常用命令详解

前言 关于国内拉取不到docker镜像的问题&#xff0c;可以利用Github Action将需要的镜像转存到阿里云私有仓库&#xff0c;然后再通过阿里云私有仓库去拉取就可以了。 参考项目地址&#xff1a;使用Github Action将国外的Docker镜像转存到阿里云私有仓库 一、Docker简介 Do…

MySQL学习笔记(二)

一、SQL-函数 函数-介绍 函数是指一段可以直接被另一段程序调用的程序或代码。 字符串函数 示例 --concat select concat(Hello,MySql); --upper select upper(Hello); --lpad select lpad(01,5,-); --trim select trim( Hello MySQL ); --中间空格还在&#xff0c;头尾…

java mail 535 Login Fail. Please enter your authorization code to login

报错信息提示查看 https://service.mail.qq.com/detail/0/53 帮助页面意思就是说你要使用授权码登录, 但是授权码我已经正确的设置上去了 后面从 QQ邮箱出现错误 Please enter your authorization code to_邮件群发-双翼邮件群发软件官方网 看到 账户 需要是 QQ号 例如…

mysql、postgresql、druid链接池踩坑记录

The last packet successfully received from the server wIs 10,010 milliseconds ago. The last packet sent successfully to the server was 10,010 milliseconds ago.### The error may exist in URL mysql 链接字符串没有 &connectTimeout600000&socketTimeout6…

安卓NDK视觉开发——手机拍照文档边缘检测实现方法与库封装

一、项目创建 创建NDK项目有两种方式&#xff0c;一种从新创建整个项目&#xff0c;一个在创建好的项目添加NDK接口。 1.创建NDK项目 创建 一个Native C项目&#xff1a; 选择包名、API版本与算法交互的语言&#xff1a; 选择C版本&#xff1a; 创建完之后&#xff0c;可…

Spring Boot教程之五十二:CrudRepository 和 JpaRepository 之间的区别

Spring Boot – CrudRepository 和 JpaRepository 之间的区别 Spring Boot建立在 Spring 之上&#xff0c;包含 Spring 的所有功能。由于其快速的生产就绪环境&#xff0c;使开发人员能够直接专注于逻辑&#xff0c;而不必费力配置和设置&#xff0c;因此如今它正成为开发人员…

【网页自动化】篡改猴入门教程

安装篡改猴 打开浏览器扩展商店&#xff08;Edge、Chrome、Firefox 等&#xff09;。搜索 Tampermonkey 并安装。 如图安装后&#xff0c;浏览器右上角会显示一个带有猴子图标的按钮。 创建用户脚本 已进入篡改猴管理面板点击创建 脚本注释说明 name&#xff1a;脚本名称。…

spark汇总

目录 描述运行模式1. Windows模式代码示例 2. Local模式3. Standalone模式 RDD描述特性RDD创建代码示例&#xff08;并行化创建&#xff09;代码示例&#xff08;读取外部数据&#xff09;代码示例&#xff08;读取目录下的所有文件&#xff09; 算子DAGSparkSQLSparkStreaming…

Spring AMQP-保证发送者消息的可靠性

1. 消息发送者的可靠性 保证消息的可靠性可以通过发送者重连和发送者确认来实现 发送者重连 发送者重连机制就是在发送信息的时候如果连接不上mq不会立即结束&#xff0c;而是会在一定的时间间隔之类进行重新连接&#xff0c;连接的次数和时间都是由我们在配置文件中指定的&…

vs2022编译webrtc步骤

1、主要步骤说明 概述&#xff1a;基础环境必须有&#xff0c;比如git&#xff0c;Powershell这些&#xff0c;就不写到下面了。 1.1 安装vs2022 1、选择使用C的桌面开发 2、 Windows 10 SDK安装10.0.20348.0 3、勾选MFC及ATL这两项 4、 安装完VS2022后&#xff0c;必须安…

UnityWebGl:打包成webgl后UGUI不显示文字(中文)问题

是由于unity默认使用的是Arial,导致打包成webgl时中文不显示 解决方案&#xff1a; 可在电脑C盘下&#xff0c;路径为C:\Windows\Fonts 找个中文简体的字体文件放到unity里面&#xff0c;格式必须为. ttf