搜索引擎一般分为通用搜索和垂直领域搜索,其中通用搜索包含我们熟知的google、baidu、搜狗、神马及近期比较活跃的夸克,垂直领域搜索包含各领域门户网站的搜索引擎,例如电商搜索(淘宝、天猫、京东及拼多多等等)、本地生活搜索(美团、饿了么及盒马搜索)、资讯、视频搜索(头条、抖音、微博搜索)等。

 

从20世纪90年代初期发展至今,搜索引擎已经充斥到了生活中各个场景,目前发展为每个人离不开的重要工具,那么搜索引擎经历哪些发展过程?涉及了哪些技术?有哪几个核心问题?又是如何评价一个搜索引擎好坏的?我们今天就来系统的梳理一下,什么是搜索引擎。

搜索引擎是指的各类型的搜索平台运用特定的脚本及程序从互联网上采集内容生产者的信息,再对信息进行清洗、处理、组织及整合后保存至平台索引系统中,供内容消费者按照一定的用户需求及特定的策略检索出索引内容的一门搜索技术。

搜索引擎从技术上分为全文检索引擎向量检索引擎

针对全文检索引擎,有比较基础的lucene系,solr和ElasticSearch都是基于lucene做的二次封装提供的分布式全文检索引擎,各大厂也针对solr和ElasticSearch做了很多的优化和改动已适配属于自己的搜索引擎,当然,随着技术的更新以及业务的发展,很多大厂也走上了独立研发的道路以适应更复杂的应用场景,例如百度、阿里等。

主流向量检索方法有:Faiss、Brute Force、KD-Tree、KNN Graph、LSH 、Product Quantization等。不同的方法有不同的适用场景,例如 Brute Force 适合小数据量、KD-Tree 适合 20 维以下的数据、PQ 适合中高维数据降维等。对于某些数据集和数据分布,有时也需要几种方法相互配合,方能得到更好的效果。目前向量检索引擎主要的运用于图像搜索、商品推荐及视频指纹识别等场景

搜索引擎从过程上分为爬虫、索引、query理解、召回和排序等模块。此文不作详细介绍,后续会专门针对这些模块进行详解,概览如下:

垂直收索引擎有哪些 垂直搜索引擎包括哪些_搜索引擎

搜索引擎的核心问题

今天,随着大数据时代的成熟以及人工智能时代的蓬勃发展,搜索引擎也面临着几个重要的核心问题

用户需要什么

用户在搜索引擎输入的query词相对简短,在笔者这几年做搜索引擎的经验来讲,用户的query查询评价长度在2.7个单词左右。那么如何在如此短的请求里挖掘出用户真正需要的是什么?这也就是现代搜索引擎需要解决的重要问题。

然而,在真实的搜索场景中,同一个query词,不同的用户的需求和目的也是不同的。举个栗子,在教育课程垂搜领域,一个小学老师输入“数学”和一个中学老师输入“数学”,他们想要的课程可能是不同学段的,那么如何识别这种不同需求也是搜索引擎需要解决的问题。这也是移动互联网时代个性化搜索和语义搜索能得到快速发展的原因。

哪些信息是用户最相关的

搜索引擎的本质是一个匹配、排序的过程,即从海量的数据里找到能够符合用户需求的内容,所以在明确用户的真实意图后,如何能找到满足用户需求的信息则成了搜索引擎是否准确的关键因素。

从搜索引擎发展至今,内容相关性一直都是信息领域的核心研究课题,从最初的文本检索,google提出的链接分析技术再到现在的以用户中心为基础的内容建设,都是为了解决搜索相关性的问题。

如何提升信息的信赖程度

搜索的本质是提供能够满足用户需求的信息,但在一次搜索过程中单纯满足用户需求是不够的,因为还要看这条信息是否是准确的,所以信息是否值得信赖也是搜索过程中一个重要的衡量标准。

比如,在很多时候我们向某度、某乎、某条查询我们想要知道的内容,返回的结果可能存在多条矛盾或者互斥的搜索结果。这就增加了用户主动搜索的不确定性风险,因为搜到的内容非常不可控。很多青少年甚至中老年人,前者缺乏一定的生活经验,后者欠缺必要的信息筛选训练。这两类人非常容易成为互联网诈骗的重灾区。这也是近年来为什么很多fake News的测评任务及比赛,像疫情期间的“疫情期间互联网虚假新闻检测”,因为信息的可信度在当今社会是非常重要的。