文本文件单词的检索与计数
- 实验内容
- 任务
- 要求
- 算法与数据结构
- 将Java中的信息数据写入文本文件中
- 朴素模式匹配算法:
- KMP算法:
- 使用语言及运行环境
- 项目设计
实验内容
任务
建立一个文本文件,统计给定单词在文本文件中出现的总次数及位置;
要求
1.文本文件中每个单词不包含空格且不跨行,单词由字符序列构成且区分大小写,统计给定单词在文本文件中出现的总次数,检索输出的某个单词出现在文本中的行号、在该行中出现的位置。
2.设计数据量大的文本,进行子串的查询处理,分析算法运行的时间效率,对所有输出的匹配位置结果进行验证,以证明算法设计和实现的正确性。
3.用朴素模式匹配算法或KMP算法实现字符串定位;
4.可正确读取,保存文本;
算法与数据结构
将Java中的信息数据写入文本文件中
//需要导入的包
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
public void writeEror_to_txt() {
String errorFilePath = "文本路径";
String writeDate="写入的内容";
try{
BufferedWriter writer = new BufferedWriter(new FileWriter(new File(errorFilePath),true));
writer.write("\n"+writeDate);
writer.close();
}catch(Exception e){
throw new RuntimeException("数据写入TXT文本出错");
}
朴素模式匹配算法:
被搜索的字符串称为主串,待搜索的字符串称为模式串。朴素模式匹配算法的基本思想:
对主串的每一个字符作为子串开头,与模式串进行匹配。对主串做大循环,每个字符开头做模式串长度的小循环,直到匹配成功或全部遍历完成为止。
KMP算法:
KMP算法主要是对朴素的模式匹配算法的改进,假设有String A和String B,i为A的首个字母的下标,j为B的首个字母的下标,即i=0,j=0,现要在A中匹配B,若用朴素的模式匹配算法,则i需要不断的回溯,如A=acbxacbd,B=abcd,当i=3,j=3时,发现字符不相等,如果使用的是朴素的模式匹配算法,则需要将i回溯为1,即i=i-j+1,而j=0。
若用的是KMP模式匹配算法,i不需要回溯,只有j根据字符串B的具体情况回溯到相应位置。
KMP解决了朴素匹配模式算法中的i和j的回溯问题,提高了字符串匹配的效率
使用语言及运行环境
使用语言:Java
环境:JDK1.8
工具:IntelliJ IDEA
项目设计
用一个链表来存储单词,及单词所在的行号及位置。计算次数通过遍历链表来求其出现的总次数。