文本文件单词的检索与计数

  • 实验内容
  • 任务
  • 要求
  • 算法与数据结构
  • 将Java中的信息数据写入文本文件中
  • 朴素模式匹配算法:
  • KMP算法:
  • 使用语言及运行环境
  • 项目设计


实验内容

任务

建立一个文本文件,统计给定单词在文本文件中出现的总次数及位置;

要求

1.文本文件中每个单词不包含空格且不跨行,单词由字符序列构成且区分大小写,统计给定单词在文本文件中出现的总次数,检索输出的某个单词出现在文本中的行号、在该行中出现的位置。

2.设计数据量大的文本,进行子串的查询处理,分析算法运行的时间效率,对所有输出的匹配位置结果进行验证,以证明算法设计和实现的正确性。

3.用朴素模式匹配算法或KMP算法实现字符串定位;

4.可正确读取,保存文本;

算法与数据结构

将Java中的信息数据写入文本文件中

//需要导入的包
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;

public void writeEror_to_txt() {
	String errorFilePath = "文本路径";
    String writeDate="写入的内容";
    try{
        BufferedWriter writer = new BufferedWriter(new FileWriter(new File(errorFilePath),true));
        writer.write("\n"+writeDate);
        writer.close();
    }catch(Exception e){
        throw new RuntimeException("数据写入TXT文本出错");
    }

朴素模式匹配算法:

被搜索的字符串称为主串,待搜索的字符串称为模式串。朴素模式匹配算法的基本思想:

对主串的每一个字符作为子串开头,与模式串进行匹配。对主串做大循环,每个字符开头做模式串长度的小循环,直到匹配成功或全部遍历完成为止。

KMP算法:

KMP算法主要是对朴素的模式匹配算法的改进,假设有String A和String B,i为A的首个字母的下标,j为B的首个字母的下标,即i=0,j=0,现要在A中匹配B,若用朴素的模式匹配算法,则i需要不断的回溯,如A=acbxacbd,B=abcd,当i=3,j=3时,发现字符不相等,如果使用的是朴素的模式匹配算法,则需要将i回溯为1,即i=i-j+1,而j=0。

若用的是KMP模式匹配算法,i不需要回溯,只有j根据字符串B的具体情况回溯到相应位置。

KMP解决了朴素匹配模式算法中的i和j的回溯问题,提高了字符串匹配的效率

使用语言及运行环境

使用语言:Java
环境:JDK1.8
工具:IntelliJ IDEA

项目设计

用一个链表来存储单词,及单词所在的行号及位置。计算次数通过遍历链表来求其出现的总次数。