js文本搜索索引 javascript 搜索

转载

hackernew 2024-08-01 11:49:02

文章标签 js文本搜索索引搜索 Google 百度 文章分类 数据仓库大数据

　　按照惯例先给网址：http://www.i874.cn/baigoogledu.htm，然后是集成到 Maxthon 的搜索框调用方式：http://www.i874.cn/baigoogledu_search.htm?w=%us ，%us 代表是 utf-8 编码的。

　　之前一直在用百度Google一起搜（http://www.baigoogledu.com/），但是有些搜索内容如 xp_cmdshell 、抵制家乐福等词条不能搜索，提示如下：“非法信息监控拦截系统提醒您：由于您提交的内容中或访问的内容中含有不允许的关键词，本次操作无效，系统已记录您的IP及您提交的所有数据。请注意，不要提交任何违反国家规定的内容！本次拦截的相关信息为：抵制家乐福”。

　　上面这个原因颇让我不爽，首先，本身你一个调用百度和Google的网页不可能用到 SQL Server，除非是记录了用户的搜索内容，因此没必要为了防止 SQL 注入攻击而记录诸如 xp_cmdshell 这样的词条，其次，是否屏蔽抵制家乐福这样的词条由国家相关部门和百度Google等来决定，而不应该由你来决定，事实上抵制家乐福在百度Google上已经可以搜索了。

　　基于上述原因，我决定自己写一个类似功能的网页。起初考虑到用 ASP.NET 来写，但是着实有些大材小用，想到只是把关键字原封不动的传递给百度和Google，用 JavaScript 实现可以节约大量的服务器资源。

　　起先想的很简单，一个页面作为首页，其中有一个 <form> ，里面是一个文本框和一个提交按钮，用 get 方式把搜索关键字提交到另外一个框架页，框架页上面显示另外一个头页，frame 的 id 为 head，下面的左边是百度搜索，frame 的 id 为 baidu，右边是Google搜索，frame 的 id 为 google，<head> 里有一段脚本，具体解释参看注释：

window.onload  =   function () {
     var  url  =  location.toString().split( ' ? ' );
// 获取 url 的网址部分和查询部分
     var  w  =   '' , p  =   1 ;
     if  (url.length  ==   2 ) {
        url  =  url[ 1 ].split( ' & ' );
// 获取每个查询
        w  =  url[ 0 ].substring( 2 );
// 为了简单，查询格式为 ?w=关键字&p=页码，因此直接从第2个字符取到最后就是全部值了
         if  (url.length  ==   2 )
            p  =  parseInt(url[ 1 ].substring( 2 ));
// 如果包含页码部分则取出页码，否则页码默认为1
    }
     if  (w  ==   '' )
        location  =   ' baigoogledu.htm ' ;
// 如果搜索关键字为空则返回首页
     var  head  =  document.getElementById( ' head ' );
     var  baidu  =  document.getElementById( ' baidu ' );
     var  google  =  document.getElementById( ' google ' );
// 获取3个frame
    head.src  =   ' baigoogledu_head.htm?w= '   +  w  +   ' &p= '   +  p.toString();
// 设置头页面的 url
    p  =  (p  -   1 )  *   10 ;
// 搜索引擎的页数是通过从第n条开始显示计算的，默认每页10条，如第1页则从0开始，第2页从10开始，第3页从20开始，因此要转换
    google.src  =   ' http://www.google.cn/search?q= '   +  w  +   ' &start= '   +  p.toString();
    baidu.src  =   ' http://www.baidu.com/s?ie=utf-8&wd= '   +  w  +   ' &pn= '   +  p.toString();
// 设置搜索引擎 frame 的 url，因为网页使用 utf-8 编码，故中文和符号搜索关键词也使用 utf-8 编码，因此要在百度搜索中增加 ie=utf-8
}

　　看似没啥问题了，先不管头页面，试试再说。咦，页面一闪就跳到百度搜索了，突然想到以前看过防止被放入框架的方法，莫不是百度这个昔日的“流氓”现在依然“流氓”？查看百度搜索的源代码，果然有这样一条：if (top.location != self.location) {top.location=self.location;} ，这下可得好好琢磨一下了，top 代表我的这个框架页，我在框架页上声明一个全局变量也叫 location，是不是就会绕过去呢？于是加了一条 var location = ''; 在 window.onload = function() 的外面，刷新，这下好了，两个搜索框架空空如也，原来是我在获取 url 的时候使用了 location 属性，结果变成了使用我声明的 location 变量，值为 ''，于是改成 document.location ，搞定！于是整段代码就是这个样子了：

var  location  =   '' ;

window.onload  =   function () {
     var  url  =  document.location.toString().split( ' ? ' );
     var  w  =   '' , p  =   1 ;
     if  (url.length  ==   2 ) {
        url  =  url[ 1 ].split( ' & ' );
        w  =  url[ 0 ].substring( 2 );
         if  (url.length  ==   2 )
            p  =  parseInt(url[ 1 ].substring( 2 ));
    }
     if  (w  ==   '' )
        document.location  =   ' baigoogledu.htm ' ;
     var  head  =  document.getElementById( ' head ' );
     var  baidu  =  document.getElementById( ' baidu ' );
     var  google  =  document.getElementById( ' google ' );
    head.src  =   ' baigoogledu_head.htm?w= '   +  w  +   ' &p= '   +  p.toString();
    p  =  (p  -   1 )  *   10 ;
    google.src  =   ' http://www.google.cn/search?q= '   +  w  +   ' &start= '   +  p.toString();
    baidu.src  =   ' http://www.baidu.com/s?ie=utf-8&wd= '   +  w  +   ' &pn= '   +  p.toString();

　　不过唯一的一个小缺陷就是左下角会提示网页有错误，因为百度搜索试图访问这里的 location，因此会出现拒绝访问的错误。接下来就是如此炮制头页面，不过遇到了更加棘手的问题，由于篇幅问题，只能单独拿出来写了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。