1.Solr
优点:
(1)Solr有一个更大、更成熟的用户、开发和贡献者社区。
(2)支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
(3)Solr比较成熟、稳定。
(4)不考虑建索引的同时进行搜索,速度更快。
缺点:
建立索引时,搜索效率下降,实时索引搜索效率不高。
2.Elasticsearch
优点:
(1)Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
(2)Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
(3)处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
(4)Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
(5)各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
缺点:
还不够自动,不适合当前新的Index Warmup API
总结:
(1)当单纯的对已有数据进行搜索时,Solr更快。
(2)当实时建立索引时, Solr会产生io阻塞,查询性能较差, Elasticsearch具有明显的优势。
(3)随着数据量的增加,Solr的搜索效率会变得更低,而Elasticsearch却没有明显的变化。
(4)Solr的架构不适合实时搜索的应用。
(5)Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式
(6)Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch
(7)Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用
3.补充 Hermes:
Solr\ES :偏重于为小规模的数据提供全文检索服务;Hermes:则更倾向于为大规模的数据仓库提供索引支持,为大规模数据仓库提供即席分析的解决方案,并降低数据仓库的成本,Hermes数据量更“大”。
使用特点:
(1)一个基于大索引技术的海量数据实时检索分析平台。侧重数据分析。
(2)数据规模从几亿到万亿不等。最小的表也是千万级别。在腾讯17 台TS5机器,就可以处理每天450亿的数据(每条数据1kb左右),数据可以保存一个月之久。