前言
最近有一个解析大型xml的需求,xml大小7M,其中xml结构非常复杂,元素各种嵌套
不乏有元素下对象,元素下集合,集合下对象,集合下集合,兄弟不同元素节点,元素下对象下集合,同一元素下不同对象和集合...很复杂
注意:本方式无法解析递归元素,文末给出解决方式
简介
本文使用了SAX解析XML,SAX对内存比较友好,但是对于编码比较复杂,但是本篇代码量不是很多,主要都集中在一个继承了DefaultHandler的处理类,该处理类中主要使用了两个方法,分别是startElement和endElement。
阅读必读
比较难理解的是xml节点复杂关系的呈现,大概设计思路是定义三个map和一个int类型的下标值,三个map的作用是第1个map存储结果集,第2个map记录元素下标对应的key,第3map个记录下标key所属的元素对象。当startElement开始读取节点元素时将该元素的节点名称存储至第2个map并将该对象以该元素的节点名称存储至第三个map中,然后将int类型的下标值手动+1,最后当元素节点读取结束时开始组装格式,下面是代码呈现
package com.syasuo.xml;
import com.alibaba.fastjson.JSON;
import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import java.util.*;
/**
* @author SYASUO
* @date 2023/6/19 13:46
*/
@Slf4j
public class MyDefaultHandler extends DefaultHandler {
//存储结果集
private Map<String,Object> resultMap = new HashMap<>();
//用下标标记key
private Map<Integer,String> indexKeyMap = new HashMap<>();
//下标标记的所属key的对象
private Map<String,Map<String,Object>> indexKeyMapObj = new HashMap<>();
//记录元素节点对应的下标,初始给0
private int index = 0;
@Override
public void startDocument() throws SAXException {
log.info("------------------------------XML读取开始------------------------------");
}
/**
* 开始读取XML元素,每次记录下标对应的kay和该key对应的对象
*/
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
Map<String,Object> node = new HashMap<>();
for (int i = 0; i < attributes.getLength(); i++) {
node.put(attributes.getQName(i),attributes.getValue(i));
}
indexKeyMap.put(index,qName);
indexKeyMapObj.put(qName,node);
index++;
}
/**
* 元素节点读取结束时,由于index在startElement中执行了+1操作,
* 因此获取对应节点的父级节点时需要先执行index-1操作得到当前节点下标,在当前节点下标位再次执行-1操作得到父级节点
* 取到父级节点时需要判断父级包不包含该节点,如果包含就说明该节点是一个List集合,否则就作为一个单独的对象放入父级对象中
* 最后给resultMap结果集对象赋值即可
*/
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
Map<String,Object> curObj = indexKeyMapObj.get(qName);
int j = --index;
if(j > 0){
j--;
String qname = indexKeyMap.get(j);
Map<String,Object> parent = indexKeyMapObj.get(qname);
if(parent.containsKey(qName)){
List<Map<String,Object>> list = new ArrayList<>();
//System.out.println(parent.get(qName).getClass().getTypeName());
if(parent.get(qName).getClass().getSimpleName().equals("HashMap")){
list.add((Map<String, Object>) parent.get(qName));
}else{
list.addAll((Collection<? extends Map<String, Object>>) parent.get(qName));
}
//将当前节点对象加入当前对象集合
list.add(curObj);
parent.put(qName,list);
}else{
parent.put(qName,curObj);
}
resultMap = parent;
}
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
/*
String element = new String(ch,start,length);
log.info("该方法只有在【<ele>标签值</ele>】这种类型的标签下才能有效获取");
*/
}
/*
* 结束文档时调用
*/
@Override
public void endDocument() throws SAXException {
log.info("------------------------------XML读取结束------------------------------");
}
public Map<String,Object> getResultMap(){
return resultMap;
}
}
测试Main
注意:CprjInfo是xml对应格式的JavaBean,XML如何转JavaBean,可以看我这一篇
使用XJC将XML转换成JavaBean遇到的坑_辛丑年正月十五的博客-CSDN博客
package com.syasuo.xml;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.syasuo.entity.CprjInfo;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.File;
import java.io.IOException;
import java.util.Map;
/**
* @author SYASUO
* @date 2023/6/19 13:41
*/
public class Test {
public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
Long startTime = System.currentTimeMillis();
SAXParser parser = SAXParserFactory.newInstance().newSAXParser();
MyDefaultHandler myDefaultHandler = new MyDefaultHandler();
parser.parse(new File("D://root.xml"), myDefaultHandler);
Map<String,Object> resultMap = myDefaultHandler.getResultMap();
//System.out.println(JSON.toJSONString(resultMap));
CprjInfo cprjInfo = JSONObject.parseObject(JSON.toJSONString(resultMap),CprjInfo.class);
System.out.println(JSON.toJSONString(cprjInfo));
System.out.println(System.currentTimeMillis()-startTime);
}
}
成功的截图,可以看见进度条多么小
假如你待解析的xml有元素递归嵌套,可以看这一篇,支持大且复杂xml解析
【加强版】SAX解析XML返回对应格式的Map对象(解决元素递归嵌套)_辛丑年正月十五的博客-CSDN博客