核心提示:2.1.IndexSearcher在索引库中进行搜索是使用类IndexSearcher。创建其实例的构造方法为:IndexSearcher (Directory path)。用完后要调用IndexSe...
2.1.IndexSearcher
在索引库中进行搜索是使用类IndexSearcher。创建其实例的构造方法为:IndexSearcher (Directory path)。用完后要调用IndexSearcher.close()方法释放资源。
2.2.通过QueryParser解析用户的查询字符串进行搜索
1,QueryParser与MultiFieldQueryParser
查询分析器,处理用户输入的查询条件。把用户输入的非格式化检索词转化成后台检索可以理解的Query对象。使用的构造方法为:QueryParser(Version matchVersion, String f, Analyzer a)
2,MultiFieldQueryParser
是QueryParser的子类。与父类相比,MultiFieldQueryParser可以在多个属性中搜索。使用的构造方法为:MultiFieldQueryParser(Version matchVersion, String[] fields, Analyzer analyzer)
2.3.通过构建各种Query对象进行查询(Query的子类)
Query:抽象类,必须通过一系列子类来表述检索的具体需求。
TermQuery
关键词查询
NumericRangeQuery
范围查询。使用静态方法构造实例:
newIntRange(final String field,
Integer min, Integer max,
final boolean minInclusive, final boolean maxInclusive)
newLongRange(final String field,
Long min, Long max,
final boolean minInclusive, final boolean maxInclusive)
newFloatRange(final String field,
Float min, Float max,
final boolean minInclusive, final boolean maxInclusive)
newDoubleRange(final String field,
Double min, Double max,
final boolean minInclusive, final boolean maxInclusive)
WildcardQuery
通配符查询
PhraseQuery
短语查询
public void add(Term term, int position)
public void setSlop(int s)
例:add( new Term(“name”, “lucene”, 1);
add(new Term(“name”, “教程”, 3);
代表搜索的是“Lucene ? 教程”,?表示中间隔一个词。
setSlop(2);[如果指定了多个词,则是各个词之间的隔的数量的的和]
代表这两个词中间可以最多隔2个词
BooleanQuery
public void add(Query query, Occur occur)
Occur 用于表示布尔查询子句关系的类,包括:
Occur.MUST,Occur.MUST_NOT,Occur.SHOULD。
1,MUST和MUST:取得连个查询子句的交集。
2,MUST和MUST_NOT:包含MUST并且查询结果中不包含MUST_NOT的检索结果。
3,SHOULD与SHOULD,表示“或”关系,最终检索结果为所有检索子句的并集。
使用时注意:
1,单独使用MUST_NOT:无意义,检索无结果。(也不报错)
2,单独使用SHOULD:结果相当于MUST。
3,SHOULD和MUST_NOT: 此时SHOULD相当于MUST,结果同MUST和MUST_NOT。
4,MUST_NOT和MUST_NOT:无意义,检索无结果。(也不报错)
5,MUST和SHOULD:此时SHOULD无意义,结果为MUST子句的检索结果。
// 关键词查询
@Test
public void testTermQuery() { }
// 范围查询
@Test
public void testRangeQuery() { }
// 通配符查询
@Test
public void testWildcardQuery() { }
// 短语查询
@Test
public void testPhraseQuery() { }
// 布尔查询
@Test
public void testBooleanQuery() { }
2.4.支持分页
3.排序(相关度排序与自定义排序)
通过改变文档Boost值来改变排序结果。Boost是指索引建立过程中,给整篇文档或者文档的某一特定属性设定的权值因子,在检索时,优先返回分数高的。通过Document对象的setBoost()方法和Field对象的setBoost()方法,可以分别为Document和Field指定Boost参数。不同在于前者对文档中每一个域都修改了参数,而后者只针对指定域进行修改。默认情值为1F,一般不做修改。
使用Sort对象定制排序。Sort支持的排序功能以文档当中的域为单位,通过这种方法,可以实现一个或者多个不同域的多形式的值排序。时间类型的属性采用STRING常量。
3.1.按相关度排序
1,相关度得分是在查询时根据查询条件实进计算出来的
2,如果索引库据不变,查询条件不变,查出的文档得分也不变
3.2.按指定的字段排序
If you want to be able to sort results by a Field value, you must add it as a Field that is indexed but not analyzed, using Field.Index.NOT_ANALYZED.
4.过滤(Filter)
使用Filter可以对搜索结果进行过滤以获得更小范围的结果。使用Filter对性能的影响很大(有可能会使查询慢上百倍)。
使用NumericRangeFilter。也可使用相应的查询实现一样的效果。
5.高亮(Highlight)
需要的jar包为:
contrib\highlighter\lucene-highlighter-3.0.1.jar
contrib\memory\lucene-memory-3.0.1.jar
// 生成高亮器
Formatter formatter = new SimpleHTMLFormatter("", "");
Scorer scorer = new QueryScorer(query);
Highlighter highlighter = new Highlighter(formatter, scorer);
highlighter.setTextFragmenter(new SimpleFragmenter(20));
// 使用高亮器:对content属性值进行摘要并高亮
String text = highlighter.getBestFragment(LuceneUtils.getAnalyzer(), "content", doc.get("content"));
// 如果进行高亮的属性值中没有要搜索的关键字,则返回null
if (text != null) {
doc.getField("content").setValue(text);
}
6.Analyzer(分词器:结构与常用的中文分词器)
6.1.分词器结构
在创建索引与搜索时要使用同一个分词器。
分词器的一般工作流程:
1,切分关键词
2,去除停用词
对于英文单词,一般要还做[1,英文单词的形态还原]:
1,英文单词的所有字母转为小写
说明:形态还原,是去除单词词尾的形态变化,将其还原为词的原形。这样做可以搜索出更多有意义的结果。如搜索sutdent时,也可以搜索出students,这是很有用的。
6.2.停用词
有些词在文本中出现的频率非常高,而且对文本所携带的信息基本不产生影响,例如英文的“a、an、the、of”,或中文的“的、了、着”,以及各种标点符号等,这样的词称为停用词(stop word)。文本经过分词之后,停用词通常被过滤掉,不会被进行索引。在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。排除停用词可以加快建立索引的速度。
6.3.对英文的的处理
6.4.中文分词器
中文的分词比较复杂,因为不是一个字就是一个词,而且一个词在另外一个地方就可能不是一个词,如在“帽子和服装”中,“和服”就不是一个词。对于中文分词,通常有三种方式:单字分词、二分法分词、词典分词。
单字分词:就是按照中文一个字一个字地进行分词。如:“我们是中国人”,
效果:“我”、“们”、“是”、“中”、“国”、“人”。(StandardAnalyzer就是这样)。
二分法分词:按两个字进行切分。如:“我们是中国人”,效果:“我们”、“们是”、“是中”、“中国”、“国人”。(CJKAnalyzer就是这样)。
词库分词:按某种算法构造词,然后去匹配已建好的词库集合,如果匹配到就切分出来成为词语。通常词库分词被认为是最理想的中文分词算法。如:“我们是中国人”,效果为:“我们”、“中国人”。(使用极易分词的MMAnalyzer。可以使用“极易分词”,或者是“庖丁分词”分词器、IKAnalyzer)。
其他的中文分词器有:
1,极易分词:MMAnalyzer,最后版本是1.5.3,更新时间是2007-12-05,不支持Lucene3.0
2,庖丁分词:PaodingAnalzyer,最后版本是2.0.4,更新时间是2008-06-03,不支持Lucene3.0
中文分词器使用IKAnalyzer,主页:http://www.oschina.net/p/ikanalyzer。
实现了以词典为基础的正反向全切分,以及正反向最大匹配切分两种方法。IKAnalyzer是第三方实现的分词器,继承自Lucene的Analyzer类,针对中文文本进行处理。具体的使用方式参见其文档。
注意:扩展的词库与停止词文件要是UTF-8的编码,并且在要文件头部加一空行。
6.5.测试分词器
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
System.out.println("当前使用的分词器:" + analyzer.getClass());
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
tokenStream.addAttribute(TermAttribute.class);
while (tokenStream.incrementToken()) {
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());