检索技术_51CTO博客
信息检索技术应用的新方向:普及检索和知识检索[2001-09-26]施水才  信息检索和全文检索的发展 如何快速、准确、全面地找到信息,在知识经济时代特别重要。近年来,信息检索技术取得了飞速的发展,特别值得一提的是中文全文检索技术的发展非常迅速,并且国内自主开发的产品取得了绝大部分的市场份额,这对于一个以核心技术为竞争优势的领域是非常难能可贵的。著名的全文检索
前一阵子和大家分享了一系列排序算法,希望对大家能够有一些帮助。从今天开始,本人打算开展一个新的领域,介绍一下信息检索相关的技术。信息检索技术可以说现如今发展非常迅速,使用也极其广泛,甚至可以说是随处可见。特别是做一些跟搜索引擎,机器学习相关工作时,信息检索的知识无处不在。为了让大家更好的理解信息检索技术,我将分多次对信息检索技术做一个尽可能细致的阐述,难度由浅及深,欢迎大家多多拍砖。今天先介绍最简
  1 全文检索及其发展状况随着海量信息的出现以及计算机存储技术的发展,文献数据库正由书目数据库向全文数据库转变。这一转变使得全文检索技术得到空前的发展。常用的实现全文检索的方法主要有以下两种:第一种方法是不对数据库建立索引而直接对文章进行匹配的方法。这种方法由于没有建立索引库,因此所占空间较少,但同时正是因为它没有索引库,所以在进行全文匹配时要花费大量的时间。第二种方法则是一种为全文建
你知道Google的创始人,曾经愿意以不到100万美元的价格,把公司出售给Excite的CEO么?幸好,最终他拒绝了。尽管Google是全球最大的搜索引擎,坐拥近70%的市场份额,它也必须不断进化。看看它,再看看微软,我们便能清晰得发现“搜索技术”未来的路在何方。  语义搜索与搜索的未来  搜索引擎公司接下来的战场是:语义搜索。 这项技术承诺将把全世界的数据链接进入图谱,并整合成一个巨大的数据库。
转载 2023-10-19 10:49:59
0阅读
一晃小半年过去了,好几个月没写过博客了。其实手早就痒的不行了,终于在这个天时地利人和的下午,有点时间写点东西了。对于全文检索这块,自己之前只了解过luncence,但也仅仅是了解,只知道其大概的原理,但一直没有机会使用。最近的项目终于有机会能用全文检索了,于是就霹雳吧啦查了一顿资料,最后决定了使用luncence的升级版——elasticsearch(以下简称es,这名字太长了,手疼)。在这个万物
目录概述搜索方法顺序扫描法索引与全文检索全文检索原理比较两种方法如何创建索引概述全文检索主要对非结构化数据的数据检索。非结构化数据另外一种叫法叫:全文数据。搜索方法顺序扫描法顺序扫描法:比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描...
原创 2021-07-15 10:57:19
1085阅读
摘自Elasticsearch-基础介绍及索引原理分析Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。实时分析的分
Solr是Apache组织出品的,一个全文检索引擎系统. Solr作用: solr放在tomcat下就能独立运行,因为它是一个现成的系统. 它通过http对外提供全文检索服务,(对索引和文档的增删改查), 它内部提供通过浏览器就能访问的维护界面. 我们如果在企业中开发, 使用它的客户端工具solrJ(就是一个jar包) ,来远程调用solr服务端,服务端对索引库和文档库操作。...
原创 2022-01-13 11:14:59
149阅读
Solr是Apache组织出品的,一个全文检索引擎系统. Solr作用: solr放在tomcat下就能独立运行,因为它是一个现成的系统. 它通过http对外提供全文检索服务,(对索引和文档的增删改查), 它内部提供通过浏览器就能访问的维护界面. 我们如果在企业中开发, 使用它的客户端工具solrJ(就是一个jar包) ,来远程调用solr服务端,服务端对索引库和文档库操作。...
原创 2022-04-22 10:22:56
156阅读
线性结构检索:从数组和链表的原理初窥检索本质 数组和链表分别代表了连续空间和不连续空间的最基础的存储方式
原创 2022-02-11 16:10:51
106阅读
01 | 线性结构检索:从数组和链表的原理初窥检索本质数组和链表分别代表了连续空间和不连续空间的最基础的存储方式,它们是线性表(Linear List)的典型代表。其他所有的数据结构,比如栈、队列、二叉树、B+ 树等,都不外乎是这两者的结合和变化。以栈为例,它本质就是一个限制了读写位置的数组,特点是只允许后进先出。检索的核心思路,其实就是通过合理组织数据,尽可能地快速减少查询范围。链表的检索能力偏
原创 2023-04-03 20:17:23
65阅读
# 构建全文检索技术架构 ## 1. 流程概述 为了帮助你理解如何构建全文检索技术架构,我会先简单介绍下整个流程,然后详细说明每一步需要做什么。 ### 流程图: ```mermaid journey title 构建全文检索技术架构 section 概述 开始 --> 设置索引 --> 插入数据 --> 搜索数据 --> 完成 ``` ## 2. 详细步
原创 10月前
33阅读
1 什么是全文检索1.1 数据分类我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件1.2 结构化数据搜索常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结
原创 精选 2024-03-01 15:43:14
294阅读
1 课程计划1、什么是全文检索,如何实现全文检索2、Lucence实现全文检索的流程 1)创建索引 2)查询索引3、配置开发环境4、入门程序5、分析器的分析过程 1)测试分析器的分词效果 2)第三方中文分析器6、索引库维护 1)添加文档 2)删除文档 3)修改文档7、索引库查询 使用query子类查询...
原创 2021-04-26 00:41:08
523阅读
一、前言数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述。二、需求说明项目背景:在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高。改进
本节对语义搜索做一个简单的介绍,而后介绍语义数据搜索、混合搜索。该部分理解不深,后续会进一步补充。语义搜索简介什么是语义搜索,借用万维网之父Tim Berners-Lee的解释 “语义搜索的本质是通过数学来拜托当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式,不同的搜索模式之间的技术差异可以分为:对用户需求的表示(query mod
转载 2024-02-28 09:35:25
77阅读
第三代搜索,作为对以Google为代表的第二代搜索范式的超越或者说革新,时下正逼近一个重要的时间拐点。这股范式转型潮流由多条支流组成,其中一个支流是包含本地化搜索、社区内容搜索、知识问答社区等在内的社会化搜索,另一个支流则是人工智能、模式识别、语义分析、神经网络等智能搜索。   可以说,就技术门槛而言,智能搜索代表了下一代搜索的主流趋势。但鉴于基于神经网
1.什么是Lucene Apache Lucene 是完全用Java编写的高性能,功能齐全的,全文检索引擎工具包,通过lucene可以让程序员快速开发一个全文检索功能。 1.1什么是全文检索 在我们的生活中数据总体分为两种: 结构化数据 和 非结构化数据 。 结构化数据:具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:不定长或无固定格式的数据,如邮件,
三、es全文查询es的特点就是全文查询,而全文查询和以前根据字段值查询最大的不同就是所谓的“分词”,既然学es倒排索引肯定了解过,文本分析的过程就是一个构建倒排索引的过程,也是大多数全文搜索引擎的工作机制。3.1 _analyze 分析器3.1.1 分析器介绍分析器只对文本类型[text]有效,在1.建立text类型索引字段和2.搜索时可以配置分析器。es内置了标准分析器standard等对英文支
 了解什么是全文检索技术?想明白字典的出现是为了什么?全文检索技术可以用来做什么?搜索引擎:百度、谷歌、搜狗等站内搜索:小说网站、电商网站、论坛等等文件系统搜索:Windows文件系统搜索有哪些主流的Java全文检索技术?Lucene:这是Java语言全局检索技术的底层实现(开山鼻祖)Solr:基于Lucene,简化开发,提示性能、扩展性。通过SolrCloud可以实现分布式搜索Elas
  • 1
  • 2
  • 3
  • 4
  • 5