1,需求
两个文档,A文档中有一个表格,有多个物品,其中含有行数比较多,但表中无”数量“一列。
B文档表格中行数较少,且比A文档的表格中多包含了”数量“一列。
需要将AB中数据输出到excel中,且包含”数量“这列。
2,想法
步骤:
- 寻找从文档中提取表格的工具或者方法。
- 寻找将数据写到excel中的工具或方法。
- 判断A文档中表格中的物品名称和B文档表格中的物品名称相同时,输出物品和他的数量值。
执行
1,寻找从文档中提取表格的工具或者方法。
经过多方查找,搜得 Apache POI 提供对office的读写操作。注意 4.0.1及以上版本只支持Java 8及以上版本。
对于从word中提取表格的方法,寻得 此文章,自己运行试验后发现,会报 The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data
因为 HWPFDocument 适用于office 2003版,后缀为.doc的文档(后缀为.doc 但实际还是docx文档的也不行),office 2007及以上版本 使用 XWPFDocument 。
对于XWPFDocument ,下面这篇文章介绍的很详细:
于是按照文中的介绍我的提取word中的表格代码如下:
FileInputStream in = new FileInputStream(filePath); // 载入文档
XWPFDocument xwpf = new XWPFDocument(in);
//获取所有表格
List<XWPFTable> tables = xwpf.getTables();
System.out.println(tables);
List<XWPFTableRow> rows;
List<XWPFTableCell> cells;
for (XWPFTable table : tables) {
//表格属性
CTTblPr pr = table.getCTTbl().getTblPr();
//获取表格对应的行
rows = table.getRows();
for (XWPFTableRow row : rows) {
//获取行对应的单元格
cells = row.getTableCells();
for (XWPFTableCell cell : cells) {
System.out.println(cell.getText());
}
}
}
但是实验中,报了 Found interface org.apache.poi.util.POILogger, but class was expected
错误,查找是因为依赖的版本不一致问题导致的。
2,寻找将数据写到excel中的工具或方法。
同样是使用POI中的类,可参考 。我将其中的HSSFWorkbook 类换成XSSFWorkbook ,更好的适应现在比较常用的office的版本。与上述提取word中的表格进行结合,于是从word中提取表格,写到excel中的程序如下:
StringBuilder sb = new StringBuilder();
FileOutputStream fos = null;
try {
FileInputStream in = new FileInputStream(filePath); // 载入文档
XWPFDocument xwpf = new XWPFDocument(in);
List<XWPFTable> tables = xwpf.getTables();
System.out.println(tables);
List<XWPFTableRow> rows;
List<XWPFTableCell> cells;
XSSFWorkbook workbook = new XSSFWorkbook();
//sheet工作表的名称
XSSFSheet sheet = workbook.createSheet("学生信息");
for (XWPFTable table : tables) {
//表格属性
CTTblPr pr = table.getCTTbl().getTblPr();
//获取表格对应的行
rows = table.getRows();
for (XWPFTableRow row : rows) {
//获取行对应的单元格
cells = row.getTableCells();
XSSFRow excelRow = sheet.createRow(rows.indexOf(row));
for (XWPFTableCell cell : cells) {
XSSFCell excelCell = excelRow.createCell(cells.indexOf(cell));
// 6:向单元格内写入内容
excelCell.setCellValue(cell.getText());
}
}
}
//输出流,输出函数
fos = new FileOutputStream("E:\\WordAndExcel\\test.xls");//输出位置
workbook.write(fos);
fos.flush();
} catch (Exception e) {
e.printStackTrace();
} finally {
if (null != fos) {
try {
fos.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
3,判断A文档中表格中的物品名称和B文档表格中的物品名称相同时,输出物品和他的数量值。
思路:
- 创建一个类C,类的属性是A,B表的列的全部。
- 然后读取B表中数据全部存入到一个map中,<物品名称,C>。
- 读取A表中数据,如果名称相同时,将A表中的数量存入map对应key的value中。
- 遍历map,将数据存入新的excel中输出。
4,存在问题。
当文档中的表格存在合并单元格时,输出的对应行的数据就会有问题,暂未找到解决办法。