每个不曾起舞的日子,都是对生命的辜负。
——尼采
一、背景:Web 导出 Excel 的场景
Web 导出 Excel 功能在数据处理、分析和共享方面提供了极大的便利,是许多 Web 应用程序中的重要功能。以下是一些典型的场景:
- 数据报表导出:在企业管理系统(如ERP、CRM)中,用户经常需要将系统中的数据生成报表并导出为 Excel 文件,以便进行进一步的分析和处理。例如,销售人员可以导出月度销售报告,财务人员可以导出财务报表。
- 数据备份与归档:用户可能需要定期将系统中的数据导出为 Excel 文件进行备份或归档,以确保数据安全和可追溯性。例如,学校的学生成绩记录、医院的病人就诊记录等。
- 数据共享与交流:在团队协作中,成员之间需要共享数据,Excel 文件是一种方便的格式,可以在不同的软件和平台之间轻松传递和查看。例如,项目经理可以导出项目进度数据,与团队成员或客户分享。
- 自定义数据分析:用户可能希望对系统中的数据进行自定义分析,而 Excel 提供了强大的数据处理和分析功能,如透视表、图表等。例如,市场分析人员可以导出市场调查数据,在 Excel 中进行详细的分析和可视化。
- 批量数据处理:当用户需要对大量数据进行批量处理时,导出为 Excel 文件可以方便地进行编辑和修改,然后再导入回系统。例如,人力资源部门可以导出员工信息进行批量更新后再导入系统。
- 合规与审计需求:某些行业和组织有合规和审计要求,需要定期导出数据以供审计和检查。例如,金融机构需要导出交易记录以满足监管要求。
二、现有解决方案与技术栈
- 服务器端技术:如 Python 的 Pandas 库、Node.js 的 ExcelJS 库、Java 的 Apache POI 库等,用于生成 Excel 文件。
- 前端技术:如 JavaScript 的 SheetJS 库,用于在浏览器中生成和下载 Excel 文件。
- API 接口:通过 RESTful API 或 GraphQL 接口,从服务器获取数据并生成 Excel 文件。
在 Java 中,常见的 Excel 导出方案包括:
1、Apache POI:
优点:
- 功能强大,支持读写 Microsoft Excel 97-2003 (XLS) 和 Excel 2007+ (XLSX) 文件。
- 社区活跃,文档和示例丰富。
- 支持复杂的 Excel 操作,如公式、图表、样式等。
缺点:
- API 较为复杂,上手需要一定时间。
- 性能在处理大文件时可能不够理想。
2、JExcelAPI (JXL)
优点:
- 简单易用,适合处理基本的 Excel 操作。
- 对 Excel 97-2003 (XLS) 文件有较好的支持。
缺点:
- 不支持 Excel 2007+ (XLSX) 文件。
- 功能相对有限,不支持复杂的操作如图表和公式。
3、EasyExcel
EasyExcel 因其高性能、简单易用、功能丰富以及良好的社区支持,成为了许多企业在实现 Excel 导出功能时的首选工具。
优点:
- 由阿里巴巴开源,专注于高性能的 Excel 读写。
- 支持 Excel 2007+ (XLSX) 文件。
- API 简洁,易于使用,特别适合大数据量的导入导出。
缺点:
- 相对于 Apache POI,功能较少,不支持一些复杂的操作。
4、OpenCSV (用于处理 CSV 文件)
优点:
- 轻量级,简单易用。
- 专注于 CSV 格式,性能好。
缺点:
- 仅支持 CSV 文件,不支持 XLS 或 XLSX 格式。
- 功能较为单一,只能处理简单的文本数据。
5、JasperReports
优点:
- 强大的报表生成工具,支持多种格式(包括 Excel)。
- 可以结合 iReport 等工具进行可视化设计。
- 支持复杂的报表需求,如分组、汇总、图表等。
缺点:
- 学习曲线较陡,需要掌握报表设计和配置。
- 配置和使用较为复杂,适合有报表需求的场景。
6、Spire.XLS for Java
优点:
- 商业库,提供全面的 Excel 操作功能。
- 支持所有版本的 Excel 文件格式。
- 易于使用,文档和技术支持完善。
缺点:
- 商业软件,需要购买许可证。
- 社区支持和开源资源较少。
7、Aspose.Cells for Java
优点:
- 商业库,功能非常强大,支持所有 Excel 文件格式。
- 提供丰富的 API,可以处理复杂的 Excel 操作,如公式、图表、数据透视表等。
- 性能优秀,适合处理大数据量的 Excel 文件。
缺点:
- 商业软件,价格较高。
- 学习成本较高,需要深入了解其 API。
三、思考:基于 JNI + Rust 的导出方案
1、优势
将 Excel 文件的生成任务交给 Rust 来处理,可以充分利用 Rust 的高性能和内存安全特性,确保文件生成过程高效且可靠。同时,Java 负责 API 接口请求和业务逻辑处理,利用其成熟的生态系统和广泛的企业应用经验,使得整个系统更加易于维护和扩展。
2、职责
Rust 部分:
- 使用 rust-xlsxwriter 等库来处理 Excel 文件的生成和导出。
- 将生成的 Excel 文件保存到服务器的某个位置,或者直接返回给调用方。
Java 部分:
- 使用 Spring Boot 或其他框架来创建 RESTful API。
- 在接收到请求后,通过 JNI(Java Native Interface)或通过命令行调用 Rust 程序来生成 Excel 文件。
- 将生成的文件返回给客户端,或者提供下载链接。
补充:rust_xlsxwriter 介绍
rust_xlsxwriter 是一个用于在 Rust 编程语言中创建和写入 Excel 文件(.xlsx 格式)的库。这个库提供了一种简单且高效的方法来生成 Excel 文件,适用于需要处理电子表格数据的各种应用场景,如数据分析、报告生成等。
主要特性
- 易于使用:rust_xlsxwriter 提供了直观的 API,使得创建和操作 Excel 文件变得非常简单。
- 支持多种数据类型:可以在单元格中写入字符串、数字、日期和布尔值等多种数据类型。
- 格式化功能:支持丰富的单元格格式化选项,包括字体样式、颜色、边框和对齐方式等。
- 工作表管理:可以创建多个工作表,并在不同的工作表之间切换和操作。
- 公式支持:允许在单元格中插入 Excel 公式,自动计算结果。
- 图表支持:能够在工作表中插入各种类型的图表,如柱状图、折线图和饼图等。
- 性能优化:针对大数据量的处理进行了优化,确保生成 Excel 文件的效率。
四、实践:检验真理的唯一标准
1、使用 Rust 导出 Excel
主要使用 rust_xlsxwriter 这个库,
https://docs.rs/rust_xlsxwriter/latest/rust_xlsxwriter/
示例
创建一个 Rust 项目,添加 rust_xlsxwriter 依赖,
# Cargo.toml
[dependencies]
rust_xlsxwriter = {
version = "0.79.4" , features =["zlib","ryu","polars","serde","constant_memory"] }
修改官网示例,这里尝试导出 10 万行数据,
// main.rs
fn main() -> Result<(), XlsxError> {
// Create a new Excel file object.
let mut workbook = Workbook::new();
// Create some formats to use in the worksheet.
let date_format = Format::new().set_num_format("yyyy-mm-dd");
// Add a worksheet to the workbook.
let worksheet = workbook.add_worksheet();
// Set the column width for clarity.
worksheet.set_column_width(0, 16)?;
worksheet.set_column_width(5, 22)?;
// Generate data in parallel.
let data: Vec<Vec<CellValue>> = (0..ROWS)
.into_par_iter()
.map(|i| generate_row_data(i))
.collect();
// Write data to the worksheet in batches.
for (i, row_data) in data.chunks(BATCH_SIZE).enumerate() {
for (j, row) in row_data.iter().enumerate() {
let row_index = i * BATCH_SIZE + j;
for (col, value) in row.iter().enumerate() {
match value {
CellValue::String(s) => worksheet.write(row_index as u32, col as u16, *s)?,
CellValue::Number(n) => worksheet.write(row_index as u32, col as u16, *n)?,
CellValue::Date(d) => worksheet.write_with_format(
row_index as u32,
col as u16,
d,
&date_format,
)?,
CellValue::Url(u) => {
worksheet.write(row_index as u32, col as u16, Url::new(*u))?
}
};
}
}
}
// Save the file to disk.
workbook.save("parallel_demo.xlsx")?;
Ok(())
}
编译运行后报错 attempt to add with overflow ,
thread 'main' panicked at /home/sam/.cargo/registry/src/mirrors.ustc.edu.cn-61ef6e0cd06fb9b8/rust_xlsxwriter-0.79.4/src/relationship.rs:112:9:
attempt to add with overflow
原因分析:点击报错提示查看源码,发现 id_num定义的数据类型是 u16,在 Rust 中 u16 表示一个无符号 16 位整数类型,它的取值范围是从 0 到 65535(即 2^16 - 1),而我们导出的数据行数是 10 万,所以在加法运算的时候溢出了数值范围。
解决方案:使用 u32 类型,重新编译。
运行效果:可以看到 Excel 文件已经成功导出了,
10W数据量也可以正常导出,
2、导出 Rust 库文件
创建一个 Rust 库项目,
cargo new my_excel_writer_lib --lib
[dependencies]
jni = "0.21.1"
rust_xlsxwriter = {
version = "0.79.4" , features =["zlib","ryu","polars","serde","constant_memory"] }
[lib]
crate-type = ["cdylib"]
定义一个结构体,用于保存 Excel 指针,
#[repr(C)]
pub struct WorksheetHandle {
workbook: *mut Workbook,
worksheet: *mut Worksheet,
}
定义 createWorksheet 用于初始化创建 Excel 并返回指针,
#[no_mangle]
pub extern "system" fn Java_com_yushanma_crazyexcel_handler_MyExportResultHandler_createWorksheet(
_env: JNIEnv,
_class: JClass,
) -> jlong {
let workbook = Box::new(Workbook::new(