本人花了一段时间研究了elasticsearch在JAVA中的使用,在此分享一些其中碰到的问题以及解决办法。由于是第一次写博客,可以改进的地方大家都可以提出来,欢迎交流。

首先,介绍一下elasticsearch。ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。在这里要提到另外一个也非常热门的搜索框架就是solr。这两者的区别和一些特点我总结如下:

使用区别:

1.如果需要实时查询搜索的话,建议使用elk架构。因为solr在实时建立索引时,会产生io阻塞。而单纯对已有数据搜索,solr更快。

功能和管理上区别:

1.Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;

2.Solr 支持更多格式的数据(HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式),而 Elasticsearch 仅支持json文件格式;

3.Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供。

关于elasticsearch如何在java中使用百度上已经有很多的教程了。在这,我就不介绍了,相信对于爱钻研的各位找到对应的资料非常简单。在这里我就说一下我在使用过程中碰到到的一些点,希望可以在以后你们使用的时候能有帮助。在这之前,也希望读者们能事先先看看网上关于旧版本使用的实例,这样有助于理解。

首先,一个很关键的问题,elasticsearch版本的问题,不同的版本在使用的时候都会有蛮多地方的不同,而网上很难找到最新版本的使用说明,只能通过自己去查api去使用,而这个对于像我这样的初学者,是非常耗时间和精力的。写这篇博客的目的也有部分是为了巩固下所学的。我一开始使用的就是网上教程的版本,下载安装,编码,调试,其实也没碰到什么问题。但是后来我们的组长说,最好用比较新的版本,后来我就去下了最新的版本,结果很多问题就来了。首先是加载client时的不同,在旧的版本中的client初始化代码:

Client client = new TransportClient()
        .addTransportAddress(new InetSocketTransportAddress("host1", 9300))
        .addTransportAddress(new InetSocketTransportAddress("host2", 9300));

如果需要进行些初始化设置的话可以通过Settings这个类去设置,例如修改集群名,默认是elasticsearch,等等。

Settings settings = ImmutableSettings.settingsBuilder()
        .put("cluster.name", "myClusterName").build();
Client client =    new TransportClient(settings);

而在2.X版本中又有改变:

Client client = TransportClient.builder().build()
        .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("host1"), 9300))
        .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("host2"), 9300));



Settings settings = Settings.settingsBuilder()
        .put("cluster.name", "myClusterName").build();
Client client = TransportClient.builder().settings(settings).build();

而在最新的5.X版本中:

TransportClient client = new PreBuiltTransportClient(Settings.EMPTY)
        .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("host1"), 9300))
        .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("host2"), 9300));



Settings settings = Settings.builder()
        .put("cluster.name", "myClusterName").build();
TransportClient client = new PreBuiltTransportClient(settings);

在这里也大概介绍下整个流程,首先是新建个client,其次就是创建生成索引的方法,之后就是写search方法。这里提供下我的代码供参考:

public class ElasticSearchHandler {
    private TransportClient  client;
    //client初始化
    public ElasticSearchHandler(){
        try {

                client=new PreBuiltTransportClient(Settings.EMPTY)
                        .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("127.0.0.1"), 9300));

        }catch (Exception e){
            e.printStackTrace();
        }

    }
    //创建索引库
    public void createIndexResponse(String indexname, String type, List<String> jsondata){

        IndexRequestBuilder requestBuilder = client.prepareIndex(indexname, type);
        for(int i=0; i<jsondata.size(); i++){
            requestBuilder.setSource(jsondata.get(i)).execute().actionGet();
        }

    }
    //搜索方法
    public List<User>  searcher(QueryBuilder queryBuilder, String indexname, String type){
        List<User> list = new ArrayList<User>();

        SearchResponse searchResponse = client.prepareSearch(indexname).setTypes(type)
                .setQuery(queryBuilder)
                .execute()
                .actionGet();
        SearchHits hits = searchResponse.getHits();
        System.out.println("查询到记录数=" + hits.getTotalHits());
        SearchHit[] searchHists = hits.getHits();
        if(searchHists.length>0){
            for(SearchHit hit:searchHists){

                String name =  (String) hit.getSource().get("myname");
                int age = (Integer)hit.getSource().get("age");
                String namep=(String)hit.getSource().get("mynamep");
                list.add(new User(name,age,namep));
            }
        }
        return list;
    }
    //执行方法
    public List<User> dosearch(String indexname,String type,String searchdata){
        ElasticSearchHandler esHandler = new ElasticSearchHandler();
        //查询条件
        QueryBuilder queryBuilder1=QueryBuilders.matchPhraseQuery("myname", searchdata);
        QueryBuilder queryBuilder2=QueryBuilders.prefixQuery("mynamep",searchdata);
        QueryBuilder queryBuilder=QueryBuilders.disMaxQuery().add(queryBuilder1).add(queryBuilder2);
        /*QueryBuilder queryBuilder = QueryBuilders.boolQuery()
          .must(QueryBuilders.termQuery("id", 1));*/
        List<User> result = esHandler.searcher(queryBuilder, indexname, type);

        return result;
    }

这里面的User就是我的实体类。然后我实现功能是联想模糊查询。比如我要查询myname为“新年快乐”的所有User,而我输入“新年”,“xinnian”即可返回对应的User。

这里有几点要特别说明下

1.首先是搜索方法中的SearchResponse中的.setQuery方法参数问题。在旧的版本中是不支持传入QueryBuilder类型的,具体支持的参数可以看源码或者API。其实也没什么大碍,只要转换一下就行。

2.执行方法中的QueryBuilders类。这个类创建的实例在不同的版本中提供的方法区别非常的大,简单来说就是在不停的更新和完善(其实每个框架版本更新都是这样的= =)。这里就说几点我觉得会常用,

(1)首先是matchQuery这个方法,这个方法本身就支持中文的分词查询(什么是分词查询-->www.baidu.com)。当我们将数据库的对象都存入elasticsearch服务器的时候,其中有我们的自己实体类,当我们想通过实体类的属性去查询时(在开发中,实际上的查询大部分都是这样),就可以通过这个方法,第一个参数是你实体类的属性名,后面的对应的value。而在老版本中会有一个特殊的方法去支持:fieldQuery();而在新的版本中这个方法已经删去了。而在我的代码中的matchPhraseQuery方法跟matchQuery的区别就是前者是完全匹配,而后者只要匹配上一个字即可。这个要根据具体的需求去选择。打个比方,比如我有两个文档其中的myname属性的值分别是“哈哈哈”,”嘿嘿嘿”。如果我是使用matchQuery(“myname”,“哈嘿”),这样这两个文档就都会被查询出来。而用matchPhraseQuery(“myname”,“哈嘿”),则一条都没。必须精确匹配到才会返回查询结果。顺便提一点,matchPhraseQuery本身也支持模糊查询。(即mysql的like)。

(2)其次就是我用到的另一个prefixQuery。这个方法其实我是之前根据方法名直接预判他的功能的,而实际达到的效果也跟我预想的一样(再一次证明了方法名取的要有意义这句话的重要性)。就是根据前缀取查询,比如我有个字段为“abcde”,当你输入“a”,"ab","abc"...都是可以查询得到的。一旦出现不匹配就不会返回该文档。

(3)dixMaxQuery这个方法其实是我研究了很久才发现能实现我的需求的方法,简单来说就是多条查询条件的OR组合查询。之前我了解到一些类似功能的方法,比如multimatch();boolquery()。前者同属性多对应值的查询,后者是多条件的递进查询。比如你想实现多条查询条件的AND组合就可以使用这个,而这个方法下的must,should,filter,mustnot方法也是大有学问在里面。感兴趣的同学可以去研究研究。(最好能再告诉我^_^)

(4)还有termQuery这个方法,这个方法其实跟matchQuery有点类似,只不过前者是不支持分词查询,后者是支持分次查询。而且matchPhraseQuery中还有个slop调节因子,即可以设定少匹配一个字,默认是完全匹配。


关于elasticsearch分布式搜索的强大搜索功能还有很多很多,值得大家慢慢去探索和研究。有想法的欢迎互相交流