垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索引擎的三个特点:
1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:
3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各
类信息都可以进一步细化成各类的垂直搜索引擎。
抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、
……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
垂直类网站用户的覆盖人数第一是博客,第二是在线视频,在线视频网站从流量上看,可以说是一种媒体级别的网站,但是它的媒体价值可能还没能被广告主
所认可。接下来是网上购物、IT类网站、新闻门户类(指新华网,千龙网等纯新闻的垂直网站)、财经网站、网络游戏、B2B网站、房产网站、汽车网站。这
些细分类别很多已经成为门户网站的一个频道,甚至核心频道。为什么呢?因为这些细分类别的线下产业成熟度比较高,对网站媒体性的需求也比较大,所以
更倾向网站媒体化。