业务场景:最近接到需求,想实现将一份word文档,其中特定的文本内容获取出来,首先想到两种方法,一种是通过OCR技术,一种是通过模板占位符。
虽然想起来好像是可以实现的,不过ocr技术自己要在短时间实现是不太现实的,要用第三方的会加重项目成本。然后思路是想通过先固定特定的模板,通过一些占位符技术去实现,想法可以,也有在一些付费的第三方应用里看到过,不过实现起来也没那么容易,特别是想要在一两天内实现,时间太紧促了,所以只能通过一种小技巧绕过,方法虽然可行,不过不是好的方法

这种方法是先约定模板,要筛选出来的文本固定一种特定的样式,然后通过通过程序识别出这种文本,还有一种方法是通过书签,不过网上搜到有第三方jar是要收费的,就不描述了

poi-ooxml是word文档需要的

<properties>
<poi.version>3.9</poi.version>
</properties>

<dependencies>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>${poi.version}</version>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>${poi.version}</version>
</dependency>
</dependencies>
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;

import java.io.*;
import java.util.List;

public class WordUtils {

public static void main(String[] args) throws Exception {
String filePath = "D://test.docx";
printWord(filePath);
}

public static void printWord(String filePath) throws IOException {

XWPFDocument document = new XWPFDocument(POIXMLDocument.openPackage(filePath));
List<XWPFParagraph> paragraphs = document.getParagraphs();

for (XWPFParagraph p : paragraphs) {
//获取段落中的句列表
List<XWPFRun> runsLists = p.getRuns();
for (XWPFRun runs : runsLists) {
//获取句的字体颜色
String c = runs.getColor();
//获取句中字的大小
int f = runs.getFontSize();
//获取文本内容
String s = runs.getText(0);
// 字体为16的黑色字体都筛选出来
if (f == 16 && "000000".equals(c)) {
System.out.println(s);
}
}
}
}
}

ps:本博客内容比较简单,只是自己做下记录,有时间再探讨一下实现,网上实现的很多都是付费的,不建议用本博客的方法,本博客只是自己做下笔记