2007年2月6日星期二

[发现]如何使用Google的网页快照

具体操作可以在Google以"网页快照"为keyword搜索得到答案,本文解释其中的原理。
在Google搜索结果中,每个item下面都有一个"网页快照"链接,理论上通过点击此链接可以看到Google缓存服务器存储的该Web的HTML,即,不含图片等元素的网页。原理很像清华大学图书馆 学术信息资源门户提供的文献全文数据库,搜索引擎提供者不仅为海量信息建立了索引,而且提供了包含充分信息量的内容镜像,极大地方便了用户。 实际上,大陆用户却可能不能正常访问Google的网页快照,这是因为GWF(China's Great Fire Wall)对其进行了屏蔽。
屏蔽的技术细节非常简单,就是敏感字过滤,在这个案例中,过滤的可能是url中
/search?q=cache:
因为这是提取缓存的http get参数。
解决思路:crack the filtered word
解决方案:在?q中间加入其他参数,并且不破坏http get参数序列。例如
google搜索tsinghua wiki
得到第一个结果的网页快照链接为
http://72.14.235.104/search?q=cache:ls8NeFLhB8QJ:en.wikipedia.org/wiki/Tsinghua_University+tsinghua+wiki&hl=zh-CN&ct=clnk&cd=1&client=firefox
我们在?q中间插入ognize=true&
http://72.14.235.104/search?ognize=true&q=cache:ls8NeFLhB8QJ:en.wikipedia.org/wiki/Tsinghua_University+tsinghua+wiki&hl=zh-CN&ct=clnk&cd=1&client=firefox
输入地址栏,即可察看wiki对清华的介绍
技术提示:Firefox用户可以使用greasemonkey插件加载js代码来自动替换url,从而无缝地使用google网页快照。具体方法见Reference。
遗留问题:如果被缓存信息正文包含敏感字,或信息源被屏蔽,缓存页面仍然无法打开,例如,Google对中文wikipedia的缓存内容全部无法查看。

参考资料
www.williamlong.info/archives/634.html
www.klogs.org/archives/000290.html

没有评论: