常见的robots.txt指令为:
禁止整站抓取
User-agent: *
Disallow: /
允许整站抓取
User-agent:*
Disallow:
允许所有的搜索引擎抓取网站的任何内容
User-agent: *
Allow:/
该指令的含义是不允许蜘蛛抓取a目录下的其他目录和文件,但是可以抓取a目录下的b目录中的内容。
User-agent: *
Disallow: /a/
Allow: /a/b/
Sitemap:告诉蜘蛛XML网站地图的位置,格式为:
Sitemap:http://你的域名/sitemap.xml
Disallow: /admin/ 禁止抓取admin目录下的所有内容;
Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目录下的所有以.htm结尾的文件;
Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址;
Disallow:/ab/adc.html 禁止抓取ab文件夹下面的adc.html文件;
织梦robots.txt文件
User-agent: *
Disallow: /data/
Disallow: /dede/
Disallow: /images/
Disallow: /include/
Disallow: /plus/
Disallow: /special/
Disallow: /templets/
Disallow: /uploads/
帝国robots.txt文件
User-agent: *
Disallow: /d/
Disallow: /e/class/
Disallow: /e/config/
Disallow: /e/data/
Disallow: /e/enews/
Disallow: /e/update/
phpcms-robots.txt文件
User-agent: *
Disallow: /caches
Disallow: /phpcms
Disallow: /install
Disallow: /phpsso_server
Disallow: /api
Disallow: /admin.php
wordpress-robots.txt文件
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
thinkphp-robots.txt文件
User-agent: *