业务需求

给定url,如何查询指定的ATS中是否有该url的缓存对象信息?如果缓存了的话,希望提供该缓存对象的大小,缓存时间,缓存文件名,缓存份数(document alternative)等等信息

环境搭建

1.开启ATS的http_ui查询缓存功能

从ATS 3.0.4之后,我们就发现records.config中已经没有和http_ui相关的配置选项,但是在/mgmt/RecordsConfig.cc文件中有相关的配置信息,比如下面的ATS 5.3.0版本中的截图

python 获取url某个 python怎么获取url_python

python 获取url某个 python怎么获取url_缓存_02

为此,配置如下:

在records.config尾部添加

CONFIG proxy.config.http_ui_enabled INT 3
 CONFIG proxy.config.http.enable_http_info INT 1


 
http_ui_enabled值如下:

0 - Don't enable anything in the stats pages system (default)
 1 - Enable only the cache inspector
 2 - Enable only the various stats pages (see more below)
 3 - Enable both cache inspector and stats pages


如果TS运行在192.168.0.102,那么在remap.conf中添加如下内容:

map http://192.168.0.102:8080/cache-internal/ http://{cache-internal}
map http://192.168.0.102:8080/cache/ http://{cache}
 map http://192.168.0.102:8080/stat/ http://{stat}
 map http://192.168.0.102:8080/test/ http://{test}
 map http://192.168.0.102:8080/hostdb/ http://{hostdb}
 map http://192.168.0.102:8080/net/ http://{net}
 map http://192.168.0.102:8080/http/ http://{http}


此时可以通过访问http://192.168.0.102:8080/cache/查看cache的内容。为了安全起见,可以对map使用ACL控制,如下:

map http://192.168.0.102:8080/cache/ http://{cache}/ @src_ip=192.168.0.102 @action=allow


上面的配置,显然只允许运行在192.168.0.102上的ATS的本机用户通过8080才能访问cache页面.这样配置的原因是,只希望从程序中查询ATS缓存,而不是从浏览器中,因为浏览器一般默认访问80端口,当然你可以配置正向代理到ATS,或者访问链接时添加8080端口。

配置完成后,重启ATS。

trafficserver restart

2.从命令行访问来验证缓存查询功能

首先需要让ATS缓存上一个url资源,比如帝联的首页

python 获取url某个 python怎么获取url_缓存_03

然后通过命令行来查询该url是否已经被ATS缓存?

查询缓存的url形式如下:

http://192.168.0.102:8080/cache/lookup_url?url=http://www.dnion.com/

使用wget命令如下:


wget -S "http:/192.168.0.102:8080/cache/lookup_url?url=http://www.dnion.com/"


-S选项表示只打印响应头,默认不发送,这里特此开启它


python 获取url某个 python怎么获取url_python 获取url某个_04

在浏览器中查看保存到本地目录/tmp/dnion.html的内容

python 获取url某个 python怎么获取url_python_05

很显然, 我们看到了指定url在ATS中的缓存信息: 缓存的大小是Size参数, 有一个对象副本aliternate, 缓存的时间从Date字段判断, 没有Date的话, 参考Expires字段.

下面的问题是如何从程序中自动获取这些信息?这就是本文的目的所在.

解决方法

python实现的思路是:

获取指定url查询到的ATS缓存页面信息,利用正则匹配找到该html页面中的指定字段Date和Size处的值,得到缓存的时间和大小。

如果缓存中没有查询到,我们需要做异常处理,也就是这时获取的缓存时间和大小都是0。

下面是我对一个没有缓存的url,太平洋网站主页的测试,发现ATS正常返回的html页面信息如下

python 获取url某个 python怎么获取url_python_06

python 获取url某个 python怎么获取url_字段_07

实现源码这里暂不透露,只给出测试的运行截图

python 获取url某个 python怎么获取url_缓存_08

该python能正确识别正常的缓存页面和异常的缓存页面,给出缓存对象的大小和缓存时间.这里就可以达到我们的业务要求了

参见文献

[1].https://blog.zymlinux.net/index.php/archives/756 纸鸢博文

[2].https://cwiki.apache.org/confluence/display/TS/FAQ