2006-09-27

使用Google网页快照——理论与实践

Google网页快照不能使用一直是我觉得十分郁闷的一件事,也是我曾经常用baidu的主要原因。前不久网络上流传Google和钓鱼岛谣言,很多不明真相的网友也跟着响应、宣传,让我很痛心。最近做了一些插件,使得Google快照可以使用,在此顺便澄清一下事实。

Google相关服务不能访问的主要原因,见一下这段话:
The Great Fire Wall of China的简写,意指“中国网络防火墙”(字面意为“中国防火长城”),这是对“国家公共网络监控系统”的俗称,国内简称“防火长城”。

GFW是“金盾工程”的一个子功能。“金盾工程”是以公安信息网络为先导,以各项公安工作信息化为主要内容,建立统一指挥、快速反应、协同作战机制,在全国范围内开展公安信息化的工程,主要包括建设公安综合业务通信网、公安综合信息系统、全国公安指挥调度系统以及全国公共网络监控中心等。该项目2003年开始生效。一般所说的GFW,主要指公共网络监控系统,尤其是指对境外涉及敏感内容的网站、IP地址、关键词、网址等的过滤。

GFW的效果通常为,国内网络用户无法访问某些国外网站或者网页;或者国外网络用户无法访问国内的某些网站或者网页。这里的无法访问,有永久性的无法访问(比如色情网站),也有因为URL中含有敏感关键词或者网页上有敏感内容而暂时性的无法访问。

国家防火墙并非中国的专利。实际上,美国也有国家网络监控系统,对进出美国的每一封电子邮件进行内容扫描。不同的是,中国的国家防火墙会直接切断敏感连接,而美国的国家防火墙(考虑更名)则只是做数据监控记录。伊朗、巴基斯坦、乌兹别克斯坦、北非共和国、叙利亚、缅甸、马尔代夫、古巴、北韩、南韩、沙特阿拉伯、阿拉伯联合酋长国、也门使用与金盾类似的国家防火墙。

GFW在中国的过度使用。GFW公开封锁的是一些色情网站,但GFW明显被滥用,持不同政见的网站也会遭到封锁。更有甚者,GFW也会封锁一些非色情非政治的网站。如曾经的sourceforge.net和现在的wikipedia.org,Google目前在GFW的间歇式封锁中。


前一段时间刚刚解封的BlogSpot.com就曾经在过滤列表中,而Google网页快照仍然在其过滤列表中。

前几天,bbs上有人转载了一篇绕开封锁的方法,主要原理就是在被过滤关键词中添加无关紧要的其他字符。

就网页快照来说,主要原因是GFW过滤了url中"search?q=cache"这个字符串。而只要在这个关键字中插入一个&字符,使之成为"search?&q=cache",对于Google的Web Server来说,只是增加了一个空的参数,而GFW就无能为力了。

详情可以参考以下这篇文章:
http://www.williamlong.info/archives/634.html

事实上你可以尝试加入更多参数,例如"search?saintfish=man&q=cache",这些参数会被服务器忽略的。

但是,每次都要copy-paste这些url,手工修改很麻烦,bbs上有人发了一个在firefox下自动运行的脚本:
Firefox插件
http://bbs.sjtu.edu.cn/bbscon?board=Google&file=M.1158847098.A

我在此基础上做了一些修改,做了一个Maxthon运行的插件:
Maxthon插件
http://bbs.sjtu.edu.cn/bbscon?board=Google&file=M.1159159697.A

另外还研究了一会IE的插件,做了两个版本:
IE插件1
http://bbs.sjtu.edu.cn/bbscon?board=Google&file=M.1159271313.A
IE插件2
http://bbs.sjtu.edu.cn/bbscon?board=Google&file=M.1159285217.A

还有人发了Opera的版本:
Opera脚本
http://bbs.sjtu.edu.cn/bbscon?board=Google&file=M.1159285814.A

从此,网页快照就不是什么问题了。相信GFW不会在短时间内做出调整。

中国人民的智慧是伟大的,中国网络环境会好的。

2 comments:

Anonymous said...

崇拜你有这种奉献精神哦~

Jacky said...

What a nice job.

Yiteng.