1.数据分类
结构化数据:有固定类型或者有固定长度的数据
例如:数据库中的数据(oracle,mysql等),windows中的数据(元数据)
结构化数据的搜索方法:
数据库中数据通过sql语句可以搜索
元数据(windows中的通过windows提供的搜索栏进行搜索)
非结构化数据:没有固定类型和固定长度的数据
例如:word文档中的数据,邮件中的数据
非结构化数据的搜索方法:
word文档使用ctrl+F来搜索
此方法叫顺序扫描法:ctrl+F中是使用顺序扫描法,拿到搜索的关键字,去文档中逐一匹配,知道找到和关键字一直的内容为止。
优点:如果文档中存在要找的关键字,就一定能找到想要的内容
缺点:慢,效率低
全文检索算法(又名倒排索引算法):
将文件中的内容提取出来,将文字拆封成一个一个的词(分词),将这些词组成索引(类似字典中的目录),搜索的时候先搜索索引,通过索引找到文档,这个过程就叫做全文检索
分词:去掉停用词(a,an,the,的,得,啊,嗯,呵呵),因为搜索的时候搜索这些词没有意义,将ju