Archie和Veronica都缺乏语义功能,也就是说它们不能够索引文件全文,而只是索引文件名。这意味着,搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个"日程表",而文件的文件名是"今天的任务",那么你肯定找不到这个文件,即使实际上这个文件的第一个词就是"日程表"。随着网络的兴起,人们很快就不再使用Archie和Veronica了。
网络一出现,搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候,找东西的问题还只是局限在一定范围内。但是1993~1996年期间,网络上的网站数目从130激增到600000。马萨诸塞(Massachusetts)技术学院的研究人员马修·格雷(MatthewGray)一直在观察因特网的成长。作为一位先行者,他发明了最早的网络搜索引擎万维网Wanderer。
格雷发现,人类的认识远远跟不上网络发展的步伐,Wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道:"我编写Wanderer的目的是让他系统性地在网络中来回移动,收集所有网站。鉴于网络成长迅速,我的重心很快转移到以图表记录网络的成长过程。
Wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序,制作了一个方便用户查找所有这些索引的界面。格雷的Wanderer程序还有一个之前人们没想到的作用。网络形成之初,频带宽度是一种稀缺资源。许多网站管理员都认为Wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题,后来格雷对这个网页捕获器做了一些细微的改进,采用一种宽度算法,使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说:"这并非最好的搜索引擎,却是最早的。"
Wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿(BrainPinkerton)开发的WebCrawler。平克顿是1994年在为史蒂夫·乔布(SteveJob)的公司Next工作时无意中发明WebCrawler的。(像大多数先驱计算机公司一样,乔布公司的Next机器及其开发的NextStep软件都领先市场水平五年左右。这家公司开发的许多项技术,包括内置以太网,高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。)当时,平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学,而他的工作任务是为Nextstep操作系统开发新一代的网络浏览器,包括其内置的搜索功能。
平克顿渐渐对搜索技术,尤其是其中对网页进行索引的技术着了迷。这一步并不太难,就是让网页捕获器像网络浏览器那样提取URL。平克顿创造出一个还处于雏形阶段的网页捕获器WebCrawler,并开始用它索引网站。
当时,Google的PageRank算法还未问世,不过,平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多,或者说,在其他站点上拥有最多的指向该站点的链接(用今天的话讲,就是最Googlejuice)。排名第一的是CERN的一个万维网项目的主页。GERN是设在瑞士日内瓦的一所重要的原子物理实验室。
WebCrawler在搜索引擎发展史上占据重要地位,因为是它开创了对网络文件进行全文索引的先河。1994年4月,平克顿把自己的这个课外发明上传到了网上。截至当年11月份,它接受的查询就多达一百万条。平克顿把这项发明称为"核武器设计和研究"。1995年6月,美国在线以100万美元的价格购买了WebCrawler技术。当时,美国在线还没有任何同网络相关的资产。这次收购也预示着同搜索相关的收购战役即将打响。平克顿回忆说:"当时对于因特网将要变成什么样子,大家都茫然无知。"
WebCrawler为网上冲浪者们,尤其是美国在线的用户,开启了一个新世界。它提供全文搜索服务以及简单的以浏览为基础的界面。自此,网络迈出了重要的一步,不再局限于学术研究人员和技术精英的圈子,而是进入了主流消费市场。
|