按照惯例先给网址:http://www.i874.cn/baigoogledu.htm,然后是集成到 Maxthon 的搜索框调用方式:http://www.i874.cn/baigoogledu_search.htm?w=%us ,%us 代表是 utf-8 编码的。
之前一直在用 百度Google一起搜(http://www.baigoogledu.com/),但是有些搜索内容如 xp_cmdshell 、抵制家乐福 等词条不能搜索,提示如下:“非法信息监控拦截系统提醒您:由于您提交的内容中或访问的内容中含有不允许的关键词,本次操作无效,系统已记录您的IP及您提交的所有数据。请注意,不要提交任何违反国家规定的内容!本次拦截的相关信息为:抵制家乐福”。
上面这个原因颇让我不爽,首先,本身你一个调用百度和Google的网页不可能用到 SQL Server,除非是记录了用户的搜索内容,因此没必要为了防止 SQL 注入攻击而记录诸如 xp_cmdshell 这样的词条,其次,是否屏蔽 抵制家乐福 这样的词条由国家相关部门和百度Google等来决定,而不应该由你来决定,事实上 抵制家乐福 在百度Google上已经可以搜索了。
基于上述原因,我决定自己写一个类似功能的网页。起初考虑到用 ASP.NET 来写,但是着实有些大材小用,想到只是把关键字原封不动的传递给百度和Google,用 JavaScript 实现可以节约大量的服务器资源。
起先想的很简单,一个页面作为首页,其中有一个 <form> ,里面是一个文本框和一个提交按钮,用 get 方式把搜索关键字提交到另外一个框架页,框架页上面显示另外一个头页,frame 的 id 为 head,下面的左边是百度搜索,frame 的 id 为 baidu,右边是Google搜索,frame 的 id 为 google,<head> 里有一段脚本,具体解释参看注释:
window.onload = function () {
var url = location.toString().split( ' ? ' );
// 获取 url 的网址部分和查询部分
var w = '' , p = 1 ;
if (url.length == 2 ) {
url = url[ 1 ].split( ' & ' );
// 获取每个查询
w = url[ 0 ].substring( 2 );
// 为了简单,查询格式为 ?w=关键字&p=页码,因此直接从第2个字符取到最后就是全部值了
if (url.length == 2 )
p = parseInt(url[ 1 ].substring( 2 ));
// 如果包含页码部分则取出页码,否则页码默认为1
}
if (w == '' )
location = ' baigoogledu.htm ' ;
// 如果搜索关键字为空则返回首页
var head = document.getElementById( ' head ' );
var baidu = document.getElementById( ' baidu ' );
var google = document.getElementById( ' google ' );
// 获取3个frame
head.src = ' baigoogledu_head.htm?w= ' + w + ' &p= ' + p.toString();
// 设置头页面的 url
p = (p - 1 ) * 10 ;
// 搜索引擎的页数是通过从第n条开始显示计算的,默认每页10条,如第1页则从0开始,第2页从10开始,第3页从20开始,因此要转换
google.src = ' http://www.google.cn/search?q= ' + w + ' &start= ' + p.toString();
baidu.src = ' http://www.baidu.com/s?ie=utf-8&wd= ' + w + ' &pn= ' + p.toString();
// 设置搜索引擎 frame 的 url,因为网页使用 utf-8 编码,故中文和符号搜索关键词也使用 utf-8 编码,因此要在百度搜索中增加 ie=utf-8
}
看似没啥问题了,先不管头页面,试试再说。咦,页面一闪就跳到百度搜索了,突然想到以前看过防止被放入框架的方法,莫不是百度这个昔日的“流氓”现在依然“流氓”?查看百度搜索的源代码,果然有这样一条:if (top.location != self.location) {top.location=self.location;} ,这下可得好好琢磨一下了,top 代表我的这个框架页,我在框架页上声明一个全局变量也叫 location,是不是就会绕过去呢?于是加了一条 var location = ''; 在 window.onload = function() 的外面,刷新,这下好了,两个搜索框架空空如也,原来是我在获取 url 的时候使用了 location 属性,结果变成了使用我声明的 location 变量,值为 '',于是改成 document.location ,搞定!于是整段代码就是这个样子了:
var location = '' ;
window.onload = function () {
var url = document.location.toString().split( ' ? ' );
var w = '' , p = 1 ;
if (url.length == 2 ) {
url = url[ 1 ].split( ' & ' );
w = url[ 0 ].substring( 2 );
if (url.length == 2 )
p = parseInt(url[ 1 ].substring( 2 ));
}
if (w == '' )
document.location = ' baigoogledu.htm ' ;
var head = document.getElementById( ' head ' );
var baidu = document.getElementById( ' baidu ' );
var google = document.getElementById( ' google ' );
head.src = ' baigoogledu_head.htm?w= ' + w + ' &p= ' + p.toString();
p = (p - 1 ) * 10 ;
google.src = ' http://www.google.cn/search?q= ' + w + ' &start= ' + p.toString();
baidu.src = ' http://www.baidu.com/s?ie=utf-8&wd= ' + w + ' &pn= ' + p.toString();
不过唯一的一个小缺陷就是左下角会提示网页有错误,因为百度搜索试图访问这里的 location,因此会出现拒绝访问的错误。接下来就是如此炮制头页面,不过遇到了更加棘手的问题,由于篇幅问题,只能单独拿出来写了。