搜索引擎的蜘蛛人(ROBOTS)秘密
点击次数:21 次 发布日期:2008-11-26 22:35:52 作者:源代码网
|
源代码网推荐 源代码网推荐 源代码网推荐对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 源代码网推荐 源代码网推荐 源代码网推荐一、 robots.txt 源代码网推荐 源代码网推荐1、 什么是robots.txt? 源代码网推荐 源代码网推荐 源代码网推荐robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 源代码网推荐 源代码网推荐 源代码网推荐当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。 源代码网推荐 源代码网推荐 源代码网推荐robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 源代码网推荐 源代码网推荐网站 URL 源代码网推荐 相应的 robots.txt的 URL 源代码网推荐 源代码网推荐http://www.w3.org/ 源代码网推荐 http://www.w3.org/robots.txt 源代码网推荐 源代码网推荐http://www.w3.org:80/ 源代码网推荐 http://www.w3.org:80/robots.txt 源代码网推荐 源代码网推荐http://www.w3.org:1234/ 源代码网推荐 http://www.w3.org:1234/robots.txt 源代码网推荐 源代码网推荐http://w3.org/ 源代码网推荐 http://w3.org/robots.txt 源代码网推荐 源代码网整理以下 本新闻共9页,当前在第1页 1 2 3 4 5 6 7 8 9 源代码网供稿. |
