T086学习网 | 站长学院 | 技术文档 | 成语 | 歇后语 | 帝国时代 | 代码收藏 | IP地址查询 | 生活百科 | 生日密码 | CSS压缩 | 用户评论 | 欣欣百宝箱

二 搜索的基本模式

【 来源:听涛林作者:太议 更新时间:2004-11-25 | 字体:
[导读]无论搜索的技术多么复杂,无论搜索的形式多么纷繁,无论搜索的概念多么紊乱,搜索的基本模式只有三种,即:分类搜索(directory),索引搜索(index)和书签搜索(bookmark)。 1994年4月,美国斯坦福大学的两名博士生,杨...
   无论搜索的技术多么复杂,无论搜索的形式多么纷繁,无论搜索的概念多么紊乱,搜索的基本模式只有三种,即:分类搜索(directory),索引搜索(index)和书签搜索(bookmark)。
    1994年4月,美国斯坦福大学的两名博士生,杨致远和大卫.费罗,创立了雅虎(www.yahoo.com )。这个有点另类、有点离经叛道的名词立即引起了美国人民,甚至世界人民,的狂热,在相当长一段时间内,雅虎成了搜索的代名词。"你今天雅虎了吗?"据说一度是美国人见面的问候语。在中国的网络狂热时期,亿唐网站就用"你今天有否亿唐"作为广告语,折射出雅虎的无限辉煌。
    雅虎搜索其实只是一个分类搜索网站,它提供的核心产品就是一个庞大的分类目录。它将信息分成十四大类,然后在十四类框架下构建层层分类的知识结构。全球说英语的人都按照雅虎的秩序认识和了解他们周围的世界。
    在英文世界,代表性的分类搜索网站还有About.com,Looksmart.com等。
    在中国,尽管搜狐(www.sohu.com)是分类搜索的先驱,而且至今仍在分类搜索领域发挥着不可低估的作用,我们也不能将搜狐看成是中文分类搜索的象征。搜狐已经成功转型,成为赫赫有名的门户网站,已经不是以搜索作为主要产品的搜索网站。
    中文分类搜索的优秀网站主要有雅虎中国 (http://cn.yahoo.com)、蓝帆搜索www.search163.com)、139探索器(www.china139.com )和北极星(www.beijixing.com)。但谁是分类搜索的代名词,目前仍是一个谜局。而这些分类搜索网站要成为搜索的代名词,更有太多的艰辛需要付出。
    达到一定的境界是一个问题,而保持一定的境界则是另一个问题。
    雅虎虽然仍是分类搜索的代名词,但它已经不再是搜索的代名词。
    1998年9月7日这一天到来时,谁也没有注意它,就象当时没有人注意1889年4月20日这一天一样。出生于1889年4月20日的阿道夫.希特勒用铁血手腕,闪电般地征服了欧洲,而在1998年9月7日推出的Google网站,用体贴人的搜索服务,经过几次网络政变后,以同样闪电般的速度开始了对互联网的独裁统治。
    Google的主要业务是提供索引搜索服务,但现在已经取代雅虎,成为了搜索的代名词。无论你是什么人,无论你想知道什么,输入关键词,比如说"去氧核糖核酸",回车,在0.14秒的时间里,它会告诉你369万相关的网页。技术专家和家庭主妇,已经以同样的热情在工作上和生活上依赖于这位"狗哥"。
    Google的数据库据说有8000台服务器,存储有42亿网页的索引,每天接受2亿次搜索请求。这些数据诠释了Google这个同样有点另类、有点离经叛道的名词。Google来源于Googol,意思是1后面带有100个"0",一个天文数字。
    Google孕育于网络狂热的年代,但它的创始人,莱瑞.佩奇(Larry Page)和舍奇.伯利恩 (Sergey Brin),并没有计划象大多数网络英雄那样用自己的技术开办公司。这两个并不富裕的大学生是那种内向的技术专家,他们只想将他们的技术卖给某一家搜索网站,譬如雅虎,或是一个门户。但他们遭到了冷遇。雅虎的创始人之一,大卫.费罗,敷衍了几句称赞后怂恿他们自己开办公司。"等你们发展成熟形成规模后,我们再谈吧,"他说。于是莱瑞.佩奇和舍奇.伯利恩只好在加里弗尼亚一个朋友的车库里搭建舞台,开始推销那个看上去有些狂妄而最终却改变了世界的小想法。--一个英雄的谢幕和另一个英雄的登场,就这样拉开了序幕。
    在英文世界,代表性的索引搜索网站还有AlltheWeb,AskJeeves,AltaVista等等。
    中国的索引搜索起步并不算晚。1997年10月29日,相处得不算融洽的莱瑞.佩奇和舍奇.伯利恩还在大街上到处兜售他们的BackRub搜索技术,而天网搜索(http://e.pku.edu.cn)已经在CERNET上正式向网络用户提供信息导航服务。天网搜索是国家"九五"重点科技攻关项目,由北大网络实验室开发,也许正是它出身太高贵,直到今天仍然没有以强者的形象出现在网络江湖里。
    2003年7月,北京天网时代科技有限公司成立,发布"天网时代" 索引搜索(www.netera.com.cn),让我们感到了一丝春天的气息。
    但在市场的角斗场上,景象仍然惨不忍睹。中文Google与天网时代相遇,就象航空母舰邂逅小舢板。
    中文索引搜索领域会出现什么样的结局?弱肉强食的丛林会呈现什么样的秩序?强者的淫威和民族的激情又如何获得平衡?分类搜索的硝烟已经消散,但索引搜索的竞争却充斥着太多的变数。谁也不愿后退,谁也不能后退,因为索引搜索的背后有太多的金钱,--也许还有别的。
    值得庆幸的是,搜索世界还有一方净土,一块没有遭到外来强者觊觎的市场,这就是书签搜索(bookmark)。
    分类搜索和引擎搜索都有一个致命的弱点,一个死穴,一个阿基里斯之踵,而且产品越成熟先进,这个弱点就表现得越明显。正是这个弱点,决定了书签搜索生存的合理性和必然性。
    分类搜索和引擎搜索都追求信息数据库的齐全和完整。他们都试图用合理的结构或者先进的算法,最迅捷地向搜索者提供他们需要的信息,但无论如何也甩不掉那个成也萧何败也萧何的数据库包袱。你想找一个游戏网站看看,很好,分类搜索会让你一次一次在再分类的岔路口作出选择,到了目的地,还会负责任地向你推荐数百个良莠不齐的同类网站;引擎搜索则会在0.001秒的时间里,向你推荐8950万个与游戏相关的网页,当然它会按照它认为的重要性大小排好顺序。
    而你其实只想找一个象17173那样的游戏门户或者象联众那样的棋牌游戏。
    书签搜索就是要解决这道搜索难题。它的理论根据是,80%的网络用户80%的时间都在使用20%的网站,书签搜索就是让你方便地找到那20%的网站。如果你在书签搜索网站点击游戏,那些关于游戏各个方面的一流网站都在那里。
    目前,提供书签搜索服务的网站主要有新浪(http://dir.sina.com.cn/jinpin/index.htm )、百度(http://site.baidu.com )和阿酷(www.arkoo.com )。
    书签搜索的主要内容有著名网站导航、实用网站导航、分类网站导航以及实用信息查询四大部分。而专业的书签搜索网站,如阿酷(www.arkoo.com ),往往会整合新闻联播、联合邮局、多元搜索、热点关注、读者文摘、历史上的今天以及各类排行榜等网络用户经常进行的网络活动。
著名网站包括了一般上网者耳熟能详的那20个左右的网站,实用网站则排列了聊天、论坛、购物等16类基本网络活动的常用网站。
    书签搜索的分类与目录搜索的分类差别较大。书签搜索的分类虽然离不开分类学原理,更多地却是照顾了上网者的习惯和偏好。书签搜索一般将整个信息分成七十二类左右,而不是象目录搜索分成十八类左右,进入二级页面,最多进入三级页面就能找到你需要的信息。
    实用信息是那些你关心的股价、天气、汇率、度量衡、个人所得税计算甚至妇女安全期等等。
 
    一个提供搜索服务的网站,一般都会同时提供两种或三种模式的搜索。如雅虎,提供分类搜索和索引搜索;百度,提供索引搜索和书签搜索;阿酷(www.arkoo.com ),提供书签搜索和多元搜索。现阶段,仅有新浪的搜索服务完整地包括了分类搜索、索引搜索和书签搜索三种基本模式。
    一家公司的资源、能力有限,只能做某一个模式的搜索,然后外包其他模式的技术和数据库,整合到自己的网站,给搜索者的感觉就是这家公司提供了完整的搜索解决方案。搜狐,自己做分类搜索,先后或部分外包了百度和慧聪的索引搜索;Google自己做索引搜索,外包了ODP的分类搜索;阿酷自己做书签搜索,并通过多元搜索包容了百度、慧聪、Google和天网的索引搜索。
    门户网站都提供搜索服务,但它们并不等同于搜索网站,更不能等同于搜索引擎。这就是搜狐不能作为分类搜索代表的原因,--至于为什么百度不能作为中文索引搜索的象征,我在以后将有深入分析。
 
    搜索引擎是一个带来了太多混乱的概念,它有时候指索引搜索,与分类搜索相对;有时候又指整个搜索,包含了索引搜索和分类搜索。如果我们舍不得放弃这个给了网络太多烙印的词汇,我们应该知道,搜索引擎(search engine)其实就是搜索(search),包含了分类搜索(directory)、索引搜索(index)和书签搜索(bookmark)三种基本模式。
  • 转载请注明来源:IT学习网 网址:http://www.t086.com/ 向您的朋友推荐此文章
  • 特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系我们,我们会尽快予以更正。
更多
留言建议ASP探针PHP探针站长Enjoy的Blog
© 2017 T086学习网 - T086.com(原itlearner.com)
RunTime:12.03ms QueryTime:7