数据结构课程实践3——文本文件单词的检索与计数(实验准备)

  • 实验内容
  • 编程语言以及开发环境的选择
  • 实验思路
  • 一、设计思路
  • 二、准备工作
  • 三、相关算法
  • 1、朴素模式匹配算法
  • 2、KMP算法


实验内容

1、文本文件中每个单词不包含空格且不跨行,单词由字符序列构成且区分大小写,统计给定单词在文本文件中出现的总次数,检索输出的某个单词出现在文本中的行号、在该行中出现的位置。
2、设计数据量大的文本,进行子串的查询处理,分析算法运行的时间效率,对所有输出的匹配位置结果进行验证,以证明算法设计和实现的正确性。
3、用朴素模式匹配算法或KMP算法实现字符串定位;
4、可正确读取,保存文本;

编程语言以及开发环境的选择

编程语言:java
开发环境:IDE使用的是idea,jdk版本为1.8

实验思路

一、设计思路

建立一个文本文件,里面存储数据量大的文本,将文本读取之后作为主串,确定一个字符串作为模式,使用朴素模式匹配算法和KMP算法对字符串进行定位和统计。

二、准备工作

首先,创建一个文本文件,将文本文件中的字符读取出来,并放到一个字符数组中。

Scanner scanner=new Scanner(Paths.get("D:\\ideaProject\\src\\homework\\wb.txt"),"utf-8");
String text=new String();
while(scanner.hasNextLine()){
       text+=scanner.nextLine();
   }
char[] array=text.toCharArray();

其次,确立一个要搜索的单词。

char[] model={'a','r','e'};

然后,准备好朴素模式匹配算法和KMP算法的方法,将一开始准备的主串数组和需要搜索的单词数组作为参数。

/**
     * 朴素模式匹配算法
     * @param array
     * @return
     */
    public static int[] BF(char[] array,char[] model){
    }

    /**
     * KMP算法
     * @param array
     * @return
     */
    public static int[] KMP(char[] array,char[] model){
    }

三、相关算法

1、朴素模式匹配算法

朴素模式匹配算法俗称“暴力匹配算法”,就是把待匹配字符串与子串进行比对,先把待匹配子串的第一个字母与主串进行匹配,若匹配成功,则两串的坐标依次 ++,匹配不成功时,主串坐标返回到开始匹配时的坐标,待匹配串坐标清零,若待匹配坐标等于待匹配子串长度,则证明匹配成功, 返回匹配完毕主串的第一个坐标,否则返回-1。

2、KMP算法

KMP算法是在朴素模式匹配算法的基础上进行改进的,改进之处就是每当从某个起始位置开始一趟比较后,在匹配过程中出现失配,不回溯i,而是利用已经得到的部分匹配结果,将一种假想的位置定位“指针”在模式上向右滑动尽可能远的一段距离到某个位置后,继续按规则进行下一次的比较。