1、全网搜索引擎架构与流程
全网搜索引擎的宏观架构如上图,主要由核心系统和核心数据组成。
核心系统主要分为三部分(粉色部分):
- spider爬虫系统;
- search&index建立索引与查询索引系统,这个系统又主要分为两部分:
一部分用于生成索引数据build_index;
一部分用于查询索引数据search_index。 - rank打分排序系统。
核心数据主要分为两部分(紫色部分):
1、 web网页库
2、 Index索引数据
全网搜索引擎的业务特点决定了,这是一个“写入”和“检索”完全分离的系统:
【写入】
系统组成:由spider与search&index两个系统完成
输入:站长们生成的互联网网页
输出:正排倒排索引数据
流程:如架构图中的1,2,3,4
1. spider把互联网网页抓过来
2. spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像)
3. build_index从网页库中读取数据,完成分词;
4. build_index生成倒排索引。
【检索】
系统组成:由search&index与rank两个系统完成
输入:用户的搜索词
输出:排好序的第一页检索结果
流程:如架构图中的a,b,c,d
search_index获得用户的搜索词,完成分词;
search_index查询倒排索引,获得“字符匹配”网页,这是初筛的结果;
rank对初筛的结果进行打分排序;
rank对排序后的第一页结果返回。
2、站内搜索引擎架构与流程
站内搜索引擎的宏观架构如上图,与全网搜索引擎的宏观架构相比,差异只有写入的地方:
全网搜索需要spider要被动去抓取数据;
站内搜索的数据是内部系统生成的,例如“发布系统”会将生成的帖子主动推给build_data系统。
看似“很小”的差异,架构实现上难度却差很多:
全网搜索如何“实时”发现“全量”的网页是非常困难的,而站内搜索容易实时得到全部数据。
对于spider、search&index、rank三个系统:
- spider和search&index是相对独立的系统;
- rank是和业务、策略紧密、算法相关的系统,搜索体验的差异主要在此,而业务、策略的优化是需要时间积累的