Internet Archive(IA)是由Alexa创始人布鲁斯特·卡利(Brewster Kahle)于1996年创办的一个旨在记录互联网发展历史的公益计划,收藏有1996年以来数以TB计的的互联网网站页面镜像、图文影像资料。网页存档起初是由Alexa项目的负责人收集的。你可以在你的电脑上安装一个提供网站信息和排名的工具栏,查看某一特定网站过去(从1996年到现在)的样子。



  


  目前在Archive网站上通过「Take Me Back」,用户可以对一个网站的发展与历史资料进行查询和研究。十六年来,Internet Archive一直在定期镜像(收录)全球网站几乎所有可抓取的信息并将其永久保存,一些大网站甚至会每天备份一次,而小网站则可能每年只收录几次。


  


  IA的志愿者之一Saikley成立了摩羯技术公司(Capricorn Technologies)公司,专门为类似IA组织提供低成本、低消耗、高效率的存储解决方案。存储供应商Capricorn公司起初为IA安装了1.5PByte大小的存储空间,并以「Wayback Machine」为其命名,意为回溯机、网站时光倒流机器。2005年摩羯技术公司每TB的成本为2000美元,1GB存储成本仅2美元,其中65美分是存储硬件支出,另外的1.35美元则是用于网络、存储架、软件等。


  WayBack Machine是全球最大规模的互联网档案馆(网络文献库),保存过850亿个网站页面快照档案,由1500个Ubuntu服务器组成,每秒钟要处理100-200个点击。


  在Wayback Machine网站上,你可以搜索和链接你喜欢的网站,看它们过去的样子,你会发现它们像时间「快照」一样保存着。


  


  包括PC Magazine、InfoWorld、Byte、Creative Computing、MacUser在内的,曾经极具影响力的12本科技杂志,如今都已不复存在,唯有Internet Archive的Wayback Machine还保留着它们的的部分档案资料。


  Wayback Machine也有一些特殊的收集功能,如展现网站在2001年9.11事件发生时的反应;2000年美国总统选举时的网站;收集对早期互联网发展很重要的Web Pioneers。


  网址:http://web.archive.org(archive存档)。



Find with Wayback Machine


  IE9是微软开发的Internet Explorer浏览器的最新稳定版本。Find with Wayback Machine是一款IE9实用插件,无论何时都能访问850亿的互联网档案,再也不用担心无法找到或打开网页链接了。


  下载地址:http://www.iegallery.com/en-US/Addons/Details/923



中国Web信息博物馆


  在国家973和985项目支持下,北京大学网络实验室开发建设的中国网页历史信息存储与展示系统。目前已经维护有40,161,979,508个网页。


  地址:http://www.infomall.cn/



Google2001


  2008年Google为纪念其成立十周年,专门开通了一个数据库镜像网站,它提供了截至2001年1月的网页索引存档。借助Google数据库镜像,我们可以回溯到7年之前的世界去看一看。不过Google表示镜像站点将会只保留1个月时间,现在打开这个镜像站点,页面提示:Search 2001 is not available anymore…查询网页历史记录,还是要用专门的「Internet Archive」网络服务。


  地址:http://www.google.com/search2001.html