作者: 车东 Email: chedongATbigfoot.com/chedongATchedong.com
写于:2003/05
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/google_url.html
关键词:"url rewrite" mod_rewrite isapirewrite path_info "search engine
friendly"
内容摘要:
此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性,如果网站想更好地被搜索引擎收录,网站设计除了面向用户友好(User
Friendly)外,搜索引擎友好
(Search
Engine Friendly)的设计也是非常重要的。进入搜索引擎的页面内容越多,则被用户用不同的关键词找到的几率越大。在Google的算法调查一文
中提到一个站点被Google索引页面的数量其实对PageRank也是有一定影响的。由于Google
突出的是整个网络中相对静态的部分(动态网页索引量比较小),
链接地址相对固定的静态网页比较适合被Google索引(怪不得很多大网站的邮件列表归档和按月归档的文档很容被搜的到),因此很多关于面向搜索引擎
URL设计优化(URI
Pretty)的文章中提到了很多利用一定机制将动态网页参数变成像静态网页的形式:
比如可以将:
http://www.chedong.com/phpMan.php?mode=man¶meter=ls
变成:
http://www.chedong.com/phpMan.php/man/ls
实现方式主要有2种:
最简单的是基于各种WEB服务器中的URL重写转向(Rewrite)模块的URL转换:
这样几乎可以不修改程序的实现将 news.asp?id=234 这样的链接映射成
news/234.html,从外面看上去和静态链接一样。Apache服务器上有一个模块(非缺省):mod_rewrite:URL
REWRITE功能之强大足够写上一本书。
当我需要将将news.asp?id=234的映射成news/234.html时,只需设置:
RewriteRule /news/(\d+)\.html /news\.asp\?id=$1 [N,I]
这样就把 /news/234.html 这样的请求映射成了 /news.asp?id=234
当有对/news/234.html的请求时:web服务器会把实际请求转发给/news.asp?id=234
而在IIS也有相应的REWRITE模块:比如ISAPI REWRITE和IIS REWRITE,语法都是基于正则表达式,因此配置几乎和apache的mod_rewrite是相同的:
比对于某一个简单应用可以是:
RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
这样就把 http://www.chedong.com/news/234.html 映射到了
http://www.chedong.com/news/news.php?id=234
一个更通用的能够将所有的动态页面进行参数映射的表达式是:
把 http://www.myhost.com/foo.php?a=A&b=B&c=C
表现成
http://www.myhost.com/foo.php/a/A/b/B/c/C。
RewriteRule (.*?\.php)(\?[^/]*)?/([^/]*)/([^/]*)(.+?)?
$1(?2$2&:\?)$3=$4?5$5: [N,I]
通过URL REWRITE还有一个好处就是隐藏后台实现,这在后台应用平台的迁移时非常有用:当从asp迁移到java平台 时,对于前台用户来说,更本感受不到后台应用的变化。
比如我们需要将应用从news.asp?id=234迁移成news.php?query=234时,前台的表现可以一直保持为
news/234.html。从实现应用和前台表现的分离:保持了URL的稳定性,而使用mod_rewrite甚至可以把请求转发到其他后台服务器上。
Url美化的另外一个方式就是基于PATH_INFO:
PATH_INFO是一个CGI 1.1的标准,经常发现很多跟在CGI后面的"/value_1/value_2"就是PATH_INFO参数:
比如http://www.chedong.com/phpMan.php/man/ls,
中:$PATH_INFO
= "/man/ls"
参考资料:
URL Rewrite文档:
http://www.isapirewrite.com/docs/
http://httpd.apache.org/docs/mod/mod_rewrite.html
http://httpd.apache.org/docs-2.0/mod/mod_rewrite.html
搜索引擎友好的URL设计
http://www.sitepoint.com/article/485
说不定这个URL原来就是articel.php?id=485
一个基于PATH_INFO的开源内容管理系统
http://typo3.com/
Google没有索引什么?
http://www.microdocs-news.info/newsGoogle/2003/05/10.html
Google的PageRank说明:
http://pr.efactory.de/
原文出处:<a href="http://www.chedong.com/tech/google_url.html">http://www.chedong.com/tech/google_url.html</a>