记录一下使用poi读取大数据excel文件踩的坑
介绍
Java 有2个jar包可以操作excel文件,分别是jxl和poi;
jxl这个jar包只能读取excel2003年的文件(文件后缀为.xls),而poi这个jar包excel2003(文件后缀为.xls)和excel2007(文件后缀为.xls)的文件都可以读取。
问题
我是用的是poi这个jar包,对excel进行读取;
下面是上传一个file文件时调用的方法
public static Workbook getWorkbookByMultipartFile(MultipartFile file){
String fileName=file.getOriginalFilename();
if (!fileName.matches("^.+\\.(?i)(xls)$") && !fileName.matches("^.+\\.(?i)(xlsx)$")) {
log.info("文件格式错误,文件名:{}",fileName);
return null;
}
boolean isExcelXlsx2007 = false;
if (fileName.matches("^.+\\.(?i)(xlsx)$")) {
isExcelXlsx2007 = true;
}
InputStream is = null;
try {
is = file.getInputStream();
} catch (IOException e) {
log.error("读取黄页出错,file.getInputStream();失败",e);
return null;
}
Workbook wb = null;
if (isExcelXlsx2007) {
try {
wb = new XSSFWorkbook(is);
} catch (IOException e) {
log.error("读取ExcelXlsx2007出错",e);
}finally {
if (is!=null){
try {
is.close();
} catch (IOException e) {
log.error("关闭文件流出错",e);
}
}
return wb;
}
}
try {
wb = new HSSFWorkbook(is);
} catch (IOException e) {
log.error("读取ExcelXlsx2007出错",e);
}finally {
if (is!=null){
try {
is.close();
} catch (IOException e) {
log.error("关闭文件流出错",e);
}
}
return wb;
}
}
调用这个方法就能获取一个Workbook对象,然后获取sheet对象,对其中的数据进行处理,这个肯定是没有问题的,但是这个方法是把文件转化为inputstream流,然后想通过这个流来获取一个Workbook对象,当文件很大的时候(我操作20多万条数据时,文件大约15M左右),这个步骤就会出现内存溢出的问题。这个问题直接就把后路断死了,只能另外找办法解决。
解决
使用poi的另一个模式,poi Sax事件驱动解析excel
/**
* Excle xxls 批量读取大文件操作类
*
*/
public abstract class XlsxProcessAbstract {
private final Logger logger = LoggerFactory.getLogger(XlsxProcessAbstract.class);
//开始读取行数从第0行开始计算
private int rowIndex = -1;
private final int minColumns = 0;
/**
* Destination for data
*/
public <T> LinkedList<T> processAllSheet(Integer index, Class<T> clazz) throws Exception {
OPCPackage pkg = OPCPackage.open(this.getInputStream());
ReadOnlySharedStringsTable strings = new ReadOnlySharedStringsTable(pkg);
XSSFReader xssfReader = new XSSFReader(pkg);
StylesTable styles = xssfReader.getStylesTable();
SheetToCSV<T> sheetToCSV = new SheetToCSV<T>(clazz);
parserSheetXml(styles, strings, sheetToCSV, xssfReader.getSheet("rId"+index));
return sheetToCSV.getPojoList();
}
/**
* 解析excel 转换成xml
*
* @param styles
* @param strings
* @param sheetHandler
* @param sheetInputStream
* @throws IOException
* @throws SAXException
*/
public void parserSheetXml(StylesTable styles, ReadOnlySharedStringsTable strings, SheetContentsHandler sheetHandler, InputStream sheetInputStream) throws IOException, SAXException {
DataFormatter formatter = new DataFormatter();
InputSource sheetSource = new InputSource(sheetInputStream);
try {
XMLReader sheetParser = SAXHelper.newXMLReader();
ContentHandler handler = new XSSFSheetXMLHandler(styles, null, strings, sheetHandler, formatter, false);
sheetParser.setContentHandler(handler);
sheetParser.parse(sheetSource);
} catch (ParserConfigurationException e) {
throw new RuntimeException("SAX parser appears to be broken - " + e);
}
}
public abstract InputStream getInputStream() throws IOException;
/**
* 读取excel行、列值
*
* @author nevin.zhang
*/
private class SheetToCSV<T> implements SheetContentsHandler {
private boolean firstCellOfRow = false;
private T pojo;
private Class<T> clazz;
private int currentRowNumber = -1;
private int currentColNumber = -1;
private ArrayList<String> keyList = Lists.newArrayList();
private LinkedList<T> pojoList = Lists.newLinkedList();
public LinkedList<T> getPojoList() {
return pojoList;
}
public SheetToCSV(Class<T> clazz) {
this.clazz = clazz;
}
/**
* 处理cell中为空值的情况
* @param number
*/
private void processCellBlankCells(int number) {
for (int i = 0; i < number; i++) {
for (int j = 0; j < minColumns; j++) {
}
}
}
@Override
public void startRow(int rowNum) {
//logger.info(String.valueOf(rowNum));
processCellBlankCells(rowNum - currentRowNumber - 1);
if(rowNum!=0){
try {
pojo = clazz.newInstance();
} catch (InstantiationException e) {
e.printStackTrace();
} catch (IllegalAccessException e) {
e.printStackTrace();
}
}
firstCellOfRow = true;
currentRowNumber = rowNum;
currentColNumber = -1;
}
@Override
public void endRow(int rowNum) {
if(pojo==null){
return;
}
System.out.println(pojo);
if (currentRowNumber!=0){
pojoList.add(pojo);
}
}
@Override
public void cell(String cellReference, String cellValue, XSSFComment comment) {
if (firstCellOfRow) {
firstCellOfRow = false;
} else {
}
if (cellReference == null) {
cellReference = new CellAddress(currentRowNumber, currentColNumber).formatAsString();
}
int thisCol = (new CellReference(cellReference)).getCol();
int missedCols = thisCol - currentColNumber - 1;
for (int i = 0; i < missedCols; i++) {
// excel中为空的值设置为“|@|”
}
currentColNumber = thisCol;
// logger.info("当前行数:{},当前列数:{},当前值cell:{}",currentRowNumber, currentColNumber, cellValue);
if (currentRowNumber ==0){
keyList.add(cellValue);
return;
}
if (pojo == null||StringUtils.isBlank(cellValue)) {
return;
}
try {
PropertyDescriptor pd = new PropertyDescriptor(keyList.get(currentColNumber), clazz);
try {
pd.getWriteMethod().invoke(pojo, cellValue);
pd=new PropertyDescriptor("createBy",clazz);
pd.getWriteMethod().invoke(pojo, RequestHolder.getCurrentUser().getUsername());
pd=new PropertyDescriptor("updateBy",clazz);
pd.getWriteMethod().invoke(pojo, RequestHolder.getCurrentUser().getUsername());
} catch (IllegalAccessException e) {
e.printStackTrace();
} catch (InvocationTargetException e) {
e.printStackTrace();
}
} catch (IntrospectionException e) {
e.printStackTrace();
}
}
@Override
public void headerFooter(String text, boolean isHeader, String tagName) {
}
}
}
该方法对excel的数据有规定的要求——excel的第1行全放属性名,下面的2,3.....行都是放置对应的数据,遍历每行都会生成一个对应的pojo实体类对象。
对象千万用LinkedList来存,不能用Arraylist,因为这种方法不能直接取到excel的数据条数,导致不能直接new Arratlist,Arraylist会自动扩展,浪费内存。
最后将LinkedList传到service层,调用dao层的方法进行数据插入,这里又会出问题,因为我是用的时Mybatis,他会自动代理mapper中的方法,把传过来的list会再copy一遍,又会出现内存溢出的问题,只能将这个数组进行分批插入的操作,最终才完成。