【昕宝爸爸小模块】深入浅出之针对大Excel做文件读取问题

在这里插入图片描述


➡️博客首页       https://blog.csdn.net/Java_Yangxiaoyuan


       欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。


       本文章CSDN首发,欢迎转载,要注明出处哦!


       先感谢优秀的你能认真的看完本文,有问题欢迎评论区交流,都会认真回复!


✅如何针对大Excel做文件读取?

  • 一、✅如何针对大Excel做文件读取
    • 1.1🟩XSSFWorkbook文件读取
    • 1.2🟩EasyExcel文件读取
  • 二、✅扩展知识
    • 2.1🟩 EasyExcel简介
    • 2.2🟩EasyExcel 为什么内存占用小?


一、✅如何针对大Excel做文件读取


在POI中,提供了SXSSFWorkbook,通过将部分数据写入磁盘上的临时文件来减少内存占用。但是SXSSFWorkbook只能用于文件写入,但是文件读取还是不行的,就像我们前面分析过的,Excel的文件读取还是会存在内存溢出的问题的。


🟢参考本人博客文件处理专栏: 什么是POI,为什么他会导致内存溢出?


🟢参考本人博客文件处理专栏: POI如何做大文件的写入?


那如果要解决这个问题,可以考虑使用EasyExcel。


EasyExcel是一个基于Java的、快速、简洁、解决大文件内存溢出的Excel处理工具。他能让你在不用考虑性能、
内存的等因素的情况下,快速完成Excel的读、写等功能。

关于使用XSSFWorkbook和EasyExcel的文件读取,我这里也做了个内存占用的对比:


1.1🟩XSSFWorkbook文件读取


读取一个27.3MB的文件(文件的生成代码📑✅链接: POI如何做大文件的写入)


package excel.read;

import org.apache.poi.ss .usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;


import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
/**
* @author xinbaobaba
* XSSFWorkbook文件读取代码示范
*/
public class XSSFExcelReadTest {
	public static void main(String[] args) {
		// 指定要读取的文件路径
		String filename = "example.xlsx";

		try (FileInputStream fileInputStream = new FileInputStream(new File(filename))) {
			// 创建工作簿对象
			Workbook workbook = new XSSFWorkbook(fileInputStream);


			//获取第一个工作表
			Sheet sheet = workbook.getSheetAt(0);

			// foreach 遍历所有行
			for (Row row : sheet) {
				// 遍历所有单元格
				for (Cell cell : row) {
					// 根据不同数据类型处理数据
					switch (cel1.getCel1Type()) {
						case STRING:
							System.out.print(cell.getstringCellValue() + " t");
						break;
						case NUMERIC:
						if (DateUtil.isCellDateFormatted(cell)) {
							System.out.print(cell.getDateCellValue() + "t");
						} else {
							System.out.print(cell.getNumericCellValue() + " t”);
						}
						break;
						case BOOLEAN:
							System.out.print(cell.getBooleanCellValue() + " t");
							break;
						case FORMULA:
							System.out.print(cell.getCellFormula() + "t");
							break;
						default:
							System.out.print("");
					}
				}
				System.out.println();//换行
			}
		}catch (IOException e)  {
			e.printStackTrace();
		}
	}
}

同样使用Arthas查看内存占用情况:


在这里插入图片描述


占用内存1000+M


1.2🟩EasyExcel文件读取


package excel.read;


import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.context.AnalysisContext;
import com.alibaba.excel.read.listener.ReadListener:

/**
* @author xinbaobaba
* EasyExcel文件读取代码示例
*/
public class EasyExcelReadTest {

	public static void main(Stringl] args) {
		
		// 指定要读取的文件路径
		String filename = "example.xlsx";

		EasyExcel.read(filename, new PrintDataListener()).sheet().doRead();
	}
}

// 监听器,用于处理读取到的数据
class PrintDatalistener implements ReadListener<Object> {
	@Override
	public void invoke(Object data, AnalysisContext context) {
		//处理每一行的数据
		System.out.println(data) ;
	}
	
	@Override
	public void doAfterAllAnalysed(AnalysisContext context) {
		// 所有数据解析完成后的操作
	}

	@Override
	public void onException(Exception exception, AnalysisContext context) throws Exception {
		//处理读取过程中的异常
	}
}

同样使用Arthas查看内存占用情况:


在这里插入图片描述


内存占用只有不到100MB。


二、✅扩展知识


2.1🟩 EasyExcel简介


EasyExcel是一款软件程序,允许用户创建、编辑和分析电子表格。它设计成用户友好和直观,使得所有技能水平的用户都能轻松处理数据。EasyExcel提供了广泛的功能,包括进行计算、创建图表和图形以及在表格中组织数据的能力。它还支持各种文件格式,如.xls和.xlsx,使用户能够方便地导入和导出来自其他应用程序的数据。总体而言,EasyExcel是一种多功能的工具,用于管理和操作电子表格格式的数据。


2.2🟩EasyExcel 为什么内存占用小?


EasyExcel是一款基于POI(Apache开源的Java类库)开发的Excel操作工具。相比于传统的操作Excel的方式,EasyExcel采用了一种新的处理方式,即将Excel数据转化为对象列表然后进行操作。这种方式减少了对内存的占用,提高了数据处理的效率。


具体的来说,EasyExcel在内存占用方面有以下几个优势:


1. 逐行读写:EasyExcel通过逐行读写的方式操作Excel,即一次只读取或写入一行数据,而不是一次性读取或写入整个文件。这样可以大大减少对内存的占用。

2. 分段读写:当需要处理大文件时,EasyExcel可以将文件拆分成多个小段进行读写,每次只处理一小段数据,将读写的内存压力均匀分散,降低了内存的占用。

3. 内存缓冲区:EasyExcel内部使用了内存缓冲区来存储读取或写入的数据,通过合理控制缓冲区的大小,可以有效地减少对内存的占用。

4. 高效的数据处理算法:EasyExcel内部采用了高效的数据处理算法,例如使用零拷贝技术来提高数据读写的速度,减少对内存的占用。

综上所述,EasyExcel通过优化读写方式、使用内存缓冲区和高效的数据处理算法等手段,可以实现在相同数据量的情况下占用更小的内存空间,提高数据处理的效率。


参考代码示例:


import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.read.listener.ReadListener;

import java.io.File;

/**
* @author xinbaobaba
* 展示了如何使用EasyExcel读取Excel文件并计算内存占用
*/
public class EasyExcelMemoryDemo {

    public static void main(String[] args) {
        String filePath = "path/to/excel/file.xlsx";

        // 创建一个监听器,用于统计内存占用
        ReadListener<Object> listener = new ReadListener<>() {
            private long startMemory;

            @Override
            public void invoke(Object data, AnalysisContext context) {
                if (context.readRowHolder().getRowIndex() == 0) {
                    // 记录读取第一行数据时的内存占用
                    startMemory = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();
                }
            }

            @Override
            public void doAfterAllAnalysed(AnalysisContext context) {
                // 读取完所有数据后,计算内存占用的差值
                long endMemory = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();
                long memoryUsage = endMemory - startMemory;

                System.out.println("Excel文件读取完毕");
                System.out.println("内存占用差值:" + memoryUsage + " bytes");
            }
        };

        // 读取Excel文件
        EasyExcel.read(new File(filePath)).registerReadListener(listener).sheet().doRead();
    }
}


输出Excel文件读取完毕后的内存占用差值。相比于使用传统的POI工具,使用EasyExcel读取Excel文件时,内存占用会更小。


EasyExcel是一个Java库,用于简化Excel文件的读写操作。相较于Apache POI等传统Excel处理库,EasyExcel具有内存占用小的优势。这主要归功于EasyExcel的底层实现和数据处理方式。


展示:


import com.alibaba.excel.EasyExcel;  
import com.alibaba.excel.ExcelReader;  
import com.alibaba.excel.ExcelWriter;  
import com.alibaba.excel.context.AnalysisContext;  
import com.alibaba.excel.event.AnalysisEventListener;  
import com.alibaba.excel.metadata.BaseRowModel;  
import com.alibaba.excel.write.builder.ExcelWriterSheetBuilder;  
import com.alibaba.excel.write.metadata.WriteSheet;  
import com.alibaba.excel.write.metadata.WriteTable;  
import com.alibaba.excel.write.style.HorizontalCellStyleStrategy;  
  
import java.util.ArrayList;  
import java.util.List;  
  /**
  *@author 昕宝爸爸
  *@date 24/01/18
  */
public class AdvancedMemoryOptimizedExample {  
    public static void main(String[] args) {  
        String inputFileName = "input_example_complex.xlsx";  
        String outputFileName = "output_example_complex.xlsx";  
        int pageSize = 1000;  
        int sheetCount = 3; // 定义要写入的Sheet数量  
        int totalPage = 0; // 总页数变量,用于动态计算总页数  
  
        // 创建数据模型类,用于存储读取到的数据  
        class DataModel extends BaseRowModel {  
            private String field1; // 字段1  
            private int field2; // 字段2  
            // 其他字段...  
            // 对应的getter和setter方法...  
        }  
  
        // 内存优化示例:读取Excel文件并分页处理  
        List<DataModel> dataList = new ArrayList<>(); // 创建一个空的列表用于存储数据  
        ExcelReader excelReader = EasyExcel.read(inputFileName, new NoModelDataListener<DataModel>()).build(); // 使用自定义的DataModel类作为监听器的参数类型  
        ReadSheet readSheet = EasyExcel.readSheet(pageSize).build(); // 设置读取时的分页参数  
        excelReader.read(readSheet, new AnalysisEventListener<DataModel>() { // 使用自定义的DataModel类作为事件处理接口的参数类型  
            @Override  
            public void invoke(DataModel data, AnalysisContext context) {  
                // 在invoke方法中进行自定义数据处理逻辑,比如将读取到的数据存储到数据库等操作...  
                dataList.add(data); // 这里仅作示例,将读取到的数据添加到列表中,实际应用中可能需要进行其他处理  
            }  
            @Override  
            public void doAfterAllAnalysed(AnalysisContext context) {  
                // 处理读取完所有数据后的逻辑...可以在这里添加一些操作,比如关闭资源等  
                totalPage = context.getHead().getSheet().getVirtual(context).getTotalRowNum() / pageSize + 1; // 动态计算总页数,用于后续写入操作时使用  
            }  
        }); // 开始读取数据,并传入监听器进行数据处理  
        excelReader.finish(); // 读取完成后关闭Excel读取器  
  
        // 内存优化示例:写入Excel文件并自定义样式和分页写入策略  
        WriteCellStyle contentWriteCellStyle = new WriteCellStyle(); // 创建一个自定义的单元格样式对象,可以根据需要设置样式属性  
        HorizontalCellStyleStrategy horizontalCellStyleStrategy = new HorizontalCellStyleStrategy(null, contentWriteCellStyle); // 创建一个水平单元格样式策略对象,用于设置单元格样式策略  
        ExcelWriterBuilder writerBuilder = EasyExcel.write(outputFileName); // 创建Excel写入器构建器对象,用于配置写入参数和设置样式策略等  
        writerBuilder.registerWriteHandler(horizontalCellStyleStrategy); // 注册之前创建的样式策略对象到写入器中,用于设置单元格样式策略  
        ExcelWriter excelWriter = writerBuilder.build(); // 创建Excel写入器实例,用于实际写入操作  
        for (int i = 1; i <= sheetCount; i++) { // 根据定义的Sheet数量循环创建多个Sheet进行写入操作  
            WriteSheet writeSheet = EasyExcel.writerSheet("Sheet" + i).build(); // 创建多个Sheet进行写入操作,每个Sheet名称分别为"Sheet1"、"Sheet2"等,可以根据需要自定义Sheet名称和数量等参数  
            excelWriter.write(dataList, writeSheet, totalPage); // 将之前读取到的数据写入到输出文件中,并传入Sheet参数和样式策略等参数,同时传入动态计算的总页数参数,用于分页写入操作时使用  
        } // 循环写入多个Sheet数据到输出文件中,并传入对应的样式策略和总页数参数等

主要通过以下几个方式来节省内存:


使用分页读取和写入:通过设置pageSize参数,将数据分页读取和写入,可以减少一次性读取和写入的数据量,从而减少内存占用。


使用数据模型类:通过创建一个数据模型类(DataModel),将读取到的数据存储到该类的对象中,而不是直接存储到原始数据类型列表中。这样可以避免为每个数据项创建过多的对象,从而减少内存占用。


使用水平单元格样式策略:通过创建一个水平单元格样式策略对象(HorizontalCellStyleStrategy),并将样式策略注册到Excel写入器中。该策略可以根据单元格的内容自动应用样式,从而减少手动设置样式所带来的内存开销。


动态计算总页数:在读取完所有数据后,通过调用context.getHead().getSheet().getVirtual(context).getTotalRowNum()方法,动态计算总页数。这样可以避免在循环中多次计算总页数,从而减少内存占用。


综上所述,通过分页读取和写入、使用数据模型类、使用水平单元格样式策略以及动态计算总页数等方式,实现了内存的优化使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/330377.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VUE 中的 v-for 和 v-if 是否可以共存

VUE 中的 v-for 和 v-if 是否可以共存 前言1、面试经2、正确回答3、总结总结&#xff1a; 前言 要成功&#xff0c;先发疯&#xff0c;头脑简单往前冲&#xff01; 三金四银&#xff0c;金九银十&#xff0c;多学知识&#xff0c;也不能埋头苦干&#xff0c;要成功&#xff0c…

uniapp中uview组件库的NoticeBar 滚动通知 使用方法

目录 #平台差异说明 #基本使用 #配置主题 #配置图标 #配置滚动速度 #控制滚动的开始和暂停 #事件回调 #API #Props #Events 该组件用于滚动通告场景&#xff0c;有多种模式可供选择 #平台差异说明 AppH5微信小程序支付宝小程序百度小程序头条小程序QQ小程序√√√√…

2018年认证杯SPSSPRO杯数学建模B题(第一阶段)动态模糊图像全过程文档及程序

2018年认证杯SPSSPRO杯数学建模 B题 动态模糊图像 原题再现&#xff1a; 人眼由于存在视觉暂留效应&#xff0c;所以看运动的物体时&#xff0c;看到的每一帧画面都包含了一段时间内 (大约 1/24 秒) 的运动过程&#xff0c;所以这帧画面事实上是模糊的。对电影的截图来说&…

量化研究员!你应该如何写一手好代码

即使是Quant Researcher&#xff0c; 写一手高质量的代码也是非常重要的。再好的思路&#xff0c;如果不能正确地实现&#xff0c;都是没有意义的。 写一手高质量的代码的意义&#xff0c;对Quant developer来讲就更是自不待言了。这篇笔记就介绍一些python best practice。 始…

Unity Shader 的模板测试效果

模板测试是渲染管线中逐片元操作的一环&#xff0c;它的作用是筛选出指定模板的片元&#xff0c;而不符合模板的片元会被舍弃&#xff0c;从而做到一个遮罩的效果。 以下是Unity中实践的一个效果&#xff1a; 场景中可以看出&#xff0c;熊模型和茶壶模型都在差不多的位置&am…

idea社区版 MybatisCodeHelperPro插件使用介绍

文章目录 一、插件介绍二、idea社区版安装MybatisCodeHelperPro插件三、问题记录1. DatabaseHelper插件 加载不了部分数据库链接的列信息2. DatabaseHelper插件 数据库列显示顺序错乱3. MybatisCodeHelperPro插件 数据库字段不提示4. MybatisCodeHelperPro插件 特殊字段增加反引…

SpringBoot 统计API接口用时该使用过滤器还是拦截器?

统计请求的处理时间&#xff08;用时&#xff09;既可以使用 Servlet 过滤器&#xff08;Filter&#xff09;&#xff0c;也可以使用 Spring 拦截器&#xff08;Interceptor&#xff09;。两者都可以在请求处理前后插入自定义逻辑&#xff0c;从而实现对请求响应时间的统计。 …

汽车芯片「新变量」

编者按&#xff1a;汽车行业的格局重构和技术革新&#xff0c;也在推动芯片赛道进入变革周期。不同商业模式的博弈&#xff0c;持续升温。 对于智能汽车来说&#xff0c;过去几年经历了多轮硬件和软件的性能迭代&#xff0c;甚至是革新&#xff0c;如今&#xff0c;市场正在进…

张驰咨询:六西格玛工具企业如何实现资源优化与效率最大化

在这个百年未有之大变局的时期&#xff0c;我们面临着前所未有的挑战与机遇。我一直在寻找提升效率&#xff0c;减少资源浪费的方法。而六西格玛培训提供了一个系统化的解决方案&#xff0c;它不仅是一套工具&#xff0c;更是一种精益思维。 让我们一起思考一个问题&#xff1a…

VMware workstation安装SUSE Linux Enterprise Server 12 SP5虚拟机并配置网络

VMware workstation安装SUSE Linux Enterprise Server 12 SP5虚拟机并配置网络 SUSE Linux Enterprise Server是企业级Linux系统&#xff0c;适合企业应用。该文档适用于在VMware workstation平台安装SUSE Linux Enterprise Server虚拟机。 1.安装准备 1.1安装平台 Windows…

设计一个网页爬虫

定义 User Case 和 约束 注意&#xff1a;没有一个面试官会阐述清楚问题&#xff0c;我们需要定义Use case和约束 Use cases 我们的作用域只是处理以下Use Case&#xff1a; Service 爬取一批 url 生成包含搜索词的单词到页面的反向索引给页面生成标题和片段– 标题和片段是…

【机器学习】机器学习变量分析第02课

当我们谈论用机器学习来预测咖啡店的销售额时&#xff0c;我们实际上是在处理一系列与咖啡销售相关的变量。这些变量就像是我们用来理解销售情况的“线索”或“指标”。那么&#xff0c;让我们用通俗易懂的方式来聊聊这些变量是怎么工作的。 特征变量&#xff1a;咖啡店的“档…

Spring MVC学习之——自定义日期转化器

日期转换器 在数据库中的日期数据是date类型&#xff0c;而如何我们想在页面自己添加数据&#xff0c;一般是使用年-月-日的形式&#xff0c;这种形式不仅date类型接收不到&#xff0c;而且传来的是String类型&#xff0c;此时&#xff0c;我们就可以自定义日期转换器来接收数…

JVM知识总结

1.概述 JVM指的是Java虚拟机&#xff0c;本质上是一个运行在计算机上的程序&#xff0c;他的职责是运行Java字节码文件&#xff0c;作用是为了支持跨平台特性。 功能&#xff1a; 装载字节码&#xff0c;解释/编译为机器码 管理数据存储和垃圾回收 优化热点代码提升效率 …

【数学建模】2024年华数杯国际赛B题-光伏发电Photovoltaic Power 思路、代码、参考论文

1 问题背景 中国电力构成包括传统能源(如煤炭、石油、天然气)、可再生能源(如水电、风能、太阳能、核能)和其他形式的电力。这些发电模式在满足中国巨大的电力需求方面发挥着至关重要的作用。据最新数据显示&#xff0c;中国总发电量超过20万亿千瓦时&#xff0c;居世界第一。…

【征服redis8】Redis的AOF持久化

Redis 支持多种持久化方式来保证数据的可靠性和持久性。前面我们介绍了RDB方式。我们我们介绍第二种方式——AOF&#xff08;Append Only File&#xff09;机制是一种常用的持久化方式&#xff0c;它记录了所有对 Redis 数据库进行修改的命令&#xff0c;在 Redis 重启时可以使…

echarts X轴数据过多导致重叠展示不全问题(已解决)

问题 x轴数据过多导致坐标轴数据重叠 修改后 List item interval为0代表每个标签都显示&#xff0c;即间隔为0&#xff01; 将其设置为我们想要的数值即可。 xAxis: {type: "time",splitLine: {show: false,},axisLine: {show: false,lineStyle: {color: &qu…

Spring MVC学习——解决请求参数中文乱码

解决请求参数中文乱码问题 1.POST请求方式解决乱码问题 在web.xml里面设置编码过滤器 <filter><filter-name>CharacterEncodingFilter</filter-name><filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class><…

lua使用resty.http做nginx反向代理(https请求,docker容器化部署集群),一个域名多项目转发

下载使用 链接&#xff1a;https://pan.baidu.com/s/1uQ7yCzQsPWsF6xavFTpbZg 提取码&#xff1a;htay –来自百度网盘超级会员V5的分享 在根目录下执行: # 从 github 上下载文件 git clone https://github.com/ledgetech/lua-resty-http.git # 将 lua-resty-http/lib/ 下的 r…

客户案例 | 思腾合力助力某能源公司地质数据智能化计算平台建设

助力某能源公司 地质数据智能化计算平台建设 石油行业是全球最大的行业之一&#xff0c;涉及到从地下或海底开采原油和天然气的勘探、开发、生产、运输、精炼和销售的全过程。石油不仅是世界上最主要的能源之一&#xff0c;还是化工产品的主要原料。石油行业的运作对全球经济有…