ITPub博客

首页 > 大数据 > Hadoop > robots.txt文件代码说明实例

robots.txt文件代码说明实例

Hadoop 作者:beike 时间:2012-05-28 17:55:00 0 删除 编辑

在一个站点的根目录下,而且文件名必须全部小写。要访问robots.txt文件就是在域名后面加“/robots.txt”,比如说访问www.zzrl120.com网站中的robots协议,就应该在地址栏输入www.zzrl120.com/robots.txt 就可以访问了。 robots协议是搜索引擎在爬取网站的时候要查看的第一个文件,文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的,对应的不允许查看的内容,蜘蛛程序是不会查看。


robots协议中的代码说明:

  1. 1

    User-agent:*允许所有搜索引擎抓取(注意每个":"后面的描述都是在加上空格之后的,User-agent:空格*)Allow:/允许抓取


  2. 2

    Disallow:/admin/后台管理文件


  3. 3

    Disallow:/require/程序文件


  4. 4

    Disallow:/attachment/附件


  5. 5

    Disallow:/images/图片


  6. 6

    Disallow:/data/数据库文件


  7. 7

    Disallow:/template/模板文件


  8. 8

    Disallow:/css/样式表文件


  9. 9

    Disallow:/lang/编码文件


  10. 10

    Disallow:/script/脚本文件

    END

robots实例:

  1. 1

    禁止所有搜索引擎访问网站的任何部分 :
    User-agent: *
    Disallow: /

  2. 2

    允许所有的robot访问:
    User-agent: *
    Disallow: 或者
    User-agent: *
    Allow: /

  3. 3

    仅禁止Baiduspider访问您的网站:
    User-agent: Baiduspider
    Disallow: /
    仅允许Baiduspider访问您的网站:
    User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /

  4. 4

    禁止spider访问特定目录:(需要注意的是对每一个目录必须分开声明,而不能写成
    "Disallow: /cgi-bin/ /tmp/")

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/

  5. 5

    允许访问特定目录中的部分url:
    User-agent: *
    Allow: /cgi-bin/see
    Allow: /tmp/hi
    Allow: /~joe/look
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/

  6. 6

    使用"*"限制访问url:
    User-agent: *
    Disallow: /cgi-bin/*.htm

  7. 7

    使用"$"限制访问url:
    User-agent: *
    Allow: .htm$
    Disallow: /

  8. 8

    禁止访问网站中所有的动态页面:
    User-agent: *
    Disallow: /*?*

  9. 9

    禁止Baiduspider抓取网站上所有图片:(若是某一张图片,就是指到对应的图片路径和名称即可)
    User-agent: Baiduspider
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .gif$
    Disallow: .png$
    Disallow: .bmp$

  10. 10

    仅允许Baiduspider抓取网页和.gif格式图片:
    User-agent: Baiduspider
    Allow: .gif$
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .png$
    Disallow: .bmp$
    仅禁止Baiduspider抓取.jpg格式图片:
    User-agent: Baiduspider
    Disallow:

    END

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/93920/viewspace-1111439/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-04-30