T086学习网 | 站长学院 | 技术文档 | 成语 | 歇后语 | 帝国时代 | 代码收藏 | IP地址查询 | 生活百科 | 生日密码 | CSS压缩 | 用户评论 | 欣欣百宝箱

GOOGLE,不能承受中文之“重”?

【 本站原创作者:国风 更新时间:2003-09-04 | 字体:
[导读]如果让十个经常上网的人立刻说出心目中最重要的搜索引擎,可能至少会有8个人的回答是相同的,那就是GOOGLE——在全球同时也是在中国被使用最多的搜索引擎。 GOOGLE的成功不能不说是一个奇迹,没有扑天盖地的广告宣传...

如果让十个经常上网的人立刻说出心目中最重要的搜索引擎,可能至少会有8个人的回答是相同的,那就是GOOGLE——在全球同时也是在中国被使用最多的搜索引擎。

GOOGLE的成功不能不说是一个奇迹,没有扑天盖地的广告宣传、没有惊骇世俗的“新经济理念”、没有频频做秀的CEO、没有看起来很酷的界面(简直就是简约主义的及至),这些“成功条件”在许多网站眼里是难以置信的,但GOOGLE却做到了。关于GOOGLE的辉煌、GOOGLE的传奇和GOOGLE的神化已经被无数媒体无数次报道了,但在这之前,GOOGLE却是以一种近乎于“原始”的市场推广方式——口碑相传被网民们所广泛认可的,仅评这一点,就足以让市场营销的专家们好好研究一番了。

说到底,GOOGLE的成功有其环境的因素(那时大部分网站都专著于上市融资),更是对技术执著的回报。GOOGLE在中国网民心中的重要性是在最近两三年内形成的(大概是从2001年开始),首先是在上班族中迅速普及。因为有了GOOGLE,老板随意指派的工作不再是Mission Impossible(不可能完成的任务),竞争对手不再神秘,新鲜事物不再陌生,数据的收集不再是大海捞针,你也许只是在早上刚刚听过一耳朵的时髦概念(如后现代之类的),但到了晚上在朋友圈内便成了这方面的专家(当然只限于聊天的水平)。在技术上,他一改传统的人工分类式的检索技术(如YAHOO),直奔内容的最终载体——网页,极大地提高了信息检索的准确性和便利性。GOOGLE最大的贡献并不仅是技术方面,更在于他使搜索成了一种生活方式,使问题与答案的距离近到只剩点击一下鼠标。 但GOOGLE的出现是否标志这搜索引擎技术已经基本达到极限(只要以HTML为核心的网页浏览方式还是主流),特别是在中文方面?实际上无论是面向何种语言,或何种文件类型的搜索,GOOGLE的技术都始终遵循这一个核心原则——网页分级(Page Rank)技术。简单地说网页分级就是按照一个网页被点击、链接的次数来决定他在搜索结果中的优先级排序。比如你用GOOGLE查询关于“数字电视”的信息,你肯定会在搜索框中输入“数字电视”并点击Search后,得到一堆含有“数字电视”这几个字的网页链接,但在前几页所出现的页面链接肯定是被点击、链接次数最多的网页(数据是经过自动计算得出的)。可以说网页分级是GOOGLE在搜索引擎技术领域中开拓性的革命,他的优势不用多说。但这种完全依赖于程序的搜索分类技术在面对中文这样复杂的语言环境时,能否以不变应万变呢?至少在以下几个关键点,GOOGLE在满足个性化中文搜索需求时还有不足。

1、 中文网页的数量。 据说GOOGLE所搜集的网页总数达30亿(支持15种语言的搜索),但中文网页(包括繁体中文)的数量仅在7千万到8千万左右。而国内长期为网易、新浪、 263等门户提供搜索引擎技术服务的慧聪国际软件公司所开发慧聪搜索引擎所收集的网页数量就已达到1.8亿。网页的数量是衡量搜索引擎技术的重要指标之一,更多的网页意味这更大的搜索范围和更雄厚的数据基础。做为全球搜索引擎的老大,不知为何在中文网页数据库上为何不做大的投入,也许因为GOOGLE的英文用户占主导地位吧。

2、 汉语的复杂性 据有关机构统计,全球每天有4亿多次的搜索请求,而中文占了5000多万次。汉语是世界上最复杂的语言之一,相对于其他语种的搜索,而中文搜索应该也是最复杂的搜索技术(至少比英语复杂)。同字不同意的例子举不胜举,比如,笔者曾特意用GOOGLE搜索有关‘莫邪’(中国古代名剑)资料,而GOOGLE所出现的第一个链接是“莫邪检测系统”, 显然和搜索的初衷相悖。虽然这个例子有些个涩,而且通常情况下只再加一个匹配关键字即可解决(如莫邪+名剑),但这表明GOOGLE对汉语的确缺乏研究(GOOGLE在其网站的常见问题中也承认了这点)。此外,日语中也包含大量汉字,常使用GOOGLE的人应该经常能体会到GOOGLE将日语和汉语不加区别所带来的麻烦,我曾经用GOOGLE搜索“SMTP技术”这个关键字,可结果(而且是第一页)却出现了5个日语的“SMTP技术”的网页。而对于那些日语不太灵光的“哈日族”们来说可能麻烦更大(因为很多日本名称是汉语表示)。但GOOGLE不会考虑你是中国人还是日本人,始终严格地按照网页分级的原则排列搜索结果。

3、 是否支持拼音的模糊查询 若你想要查询“谢霆峰”的资料,但你输入的是“写亭封”,GOOGLE可能会给你关于一堆“写亭封”的资料(但肯定不是你想知道的谢霆峰),也可能告诉你没有这方面的资料。可以说这不是GOOGLE的错误,而是你的错。我们在使用GOOGLE时并不能保证每次都能有一个清晰、准确的搜索请求,至少在许多情况下都是基于一种相对模糊的查询描述,可 GOOGLE的搜索执行却是一丝不苟的。汉语属于表意文字,其模糊查询的难度要远大于英语,但只要吃透汉语拼音的特点,支持中文的模糊查询技术是完全可以实现的,目前国最大的搜索引擎技术供应商——慧聪和百度都已开发了这项技术。作为全球搜索引擎技术的领先者GOOGLE完全有能力在中文方面做得更好,而且他的英文搜索已能支持模糊查询功能,但不知为何在中文方面却还相当的机械。

4、 内容的相关性 在新浪的某条新闻网页下面常会出现与该条新闻相关联的其他新闻的链接,那是人工编辑的结果。而搜索引擎的相关性是要求用户在搜索某类信息时,会同时自动给出与该信息相关的其他信息。比如在搜索“中间件”时,会同时显示关于中间简的相关新闻报道、中间件的认证、公司、工作原理等相关内容。GOOGLE在英文搜索上已经成功地做到了这点,但同样没有为中文匹配同样的功能。相关性查询涉及对搜索内容的理解,也许是由于GOOGLE对汉语的研究缺乏必要投入,才在这方面落后于国内的搜索引擎公司。可以说,内容相关性搜索是检验搜索引擎智能化的一个重要指标,GOOGLE如果想继续无愧于中国网民心目中第一的位置,就必须在这个方面有所突破。

5、 网页分级的局限性 网页分级(PAGE RANK)技术是GOOGLE自豪感的核心,体现了GOOGLE的准确、GOOGLE的公正、GOOGLE的率直、GOOGLE的纯洁。但严格的等级制度是否真正能保证内容的公平性。按照GOOGLE的理念,一个网页被点击和被链接的次数就好比是该网页的“选票”,得到的票数越多,就理应安排在搜索结果最靠前的位置,否则就出现在大多数网民没有耐心去浏览的后几页上。可事实上哪些网站的网页会拥有最多的点击和被链接的次数?当然是那些通过花费巨资培养了大量人气的网站,而这些网站的内容也是通过聚集大量中小网站甚至是个人网站的资源所整合而成。网站的“巨头们”不仅独占这内容资源,也独占这本来该属于中小网站的点击率,也就是在GOOGLE世界里的“发言权”。如果在非典时期,当你在GOOGLE的搜索框中输入“非典防治”后,所得出的最靠前的信息搜索结果大多是像新浪这样的网站提供的信息,而非中华医学网和卫生部的官方网站所提供的内容,尽管他们的信息更可靠、权威,但这的确体现了GOOGLE的绝对公平,只不过这种公平是建立在网络内容资源分配不均的基础上,从某种意义上来说,这是一种缺少“人情味”的公平。在此,我们不禁想起了那句著名的广告语——“科技以人为本”。

当然,以上因素还暂时不会影响GOOGLE在中国网民心中的地位,因为中国的网民的宽容心向来是很强的,只要不是太让人难以忍受,一般网民的“惰性依赖心理”还是足以能保证他们对GOOGLE的忠诚度的,大不了就是多敲几个关键字或多点几下鼠标而已。但这种“惰性依赖心理”必须有一个前提,那就是公众不了解除了GOOGLE之外,还有没有更好的中文搜索引擎。因为在没有GOOGLE之前,YAHOO是公认的最好的搜索引擎。而现在,国内的慧聪和百度先后推出了新一代中文智能搜索引擎。据许多业内技术权威人士介绍,他们技术已经全面超越了GOOGLE,各自也都正酝酿大规模的市场推广活动,一旦国内搜索引擎在短时间内能迅速扩大其市场影响力,对于GOOGLE来说无疑是一个巨大的挑战。事实上,GOOGLE一直是用“轻”的策略实现了在中国网民心中“重”的地位,轻轻地被发现,被轻轻地被广泛认可、轻轻地进入中国,但随着中文搜索技术的不断进步,网民对中文搜索个性化的需求不断提高,GOOGLE能否还这样“轻”下去,以承担不断变“重”的中文搜索市场需求?还是让我们拭目以待吧。

  • 转载请注明来源:IT学习网 网址:http://www.t086.com/ 向您的朋友推荐此文章
  • 特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系我们,我们会尽快予以更正。
更多
留言建议ASP探针PHP探针站长Enjoy的Blog
© 2017 T086学习网 - T086.com(原itlearner.com)
RunTime:9.44ms QueryTime:7