Robots搜索引擎协议
一.什么是robots协议?
答:Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),Robots协议(robots.txt文件)是一个文本文件,使用任何一个常见的文本编辑器,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
二.为什么要有robots协议?
答:屏蔽内容:不想被抓取的隐私内容、后台、数据库文件、模板、插件文件、……或者做了伪静态就屏蔽动 态路径
三.robots协议的位置
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
四.robots协议的原理
当搜索引擎蜘蛛下载一个网页,会保存一个txt纯文本,这也就是那个网页快照缓存文本。爬虫还会提取一些标记和标签比如a标签,它把站外的链接和内部链接进行分开然后再次抓取,就是这样来连接整个互联网。这就出现了一个问题,如果咱们不想让爬虫爬取,那怎么办呢,于是就出现了一个协议,叫做robots协议。
robots协议的工作原理
爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的流程可以简化如下:
1.喂给爬虫一堆url,我们称之为种子(seeds);
2.爬虫抓取seeds,解析html网页,抽取其中的超级链接;
3.爬虫接着抓取这些新发现的链接指向的网页2,3循环往复。
五.搜索引擎爬取原理
搜索引擎抓取的原理并不是像我们看见的那样以网站的排版显示的,搜索引擎机器人也称为网蜘蛛(网络蜘蛛),蜘蛛爬取是通过一个网页链接来寻找web中主页抓取网站的代码,来判断网页的内容,友情链接的作用是更好的去抓取另一个网站通过这些链接解决寻找下一个 web页面,抓取的同时并不是马上的给一个网站进行评分,有经验的seo都知道蜘蛛的爬行时间和频繁但是就是不收录,其实蜘蛛的米就 是把整个的互联网作为一个web站点,质量好的会先给一个评分,后期后续的工作是收录。
蜘蛛抓取网页的方式分两种,第一是首先抓住开始网站容易抓取到的,通过robots判断哪些页面该抓取那些不该抓取。深层的抓取需要 做内链,继续抓取网页链接的所有网页。通过以上解说,站长们对搜索引擎蜘蛛的爬取原理应该有了一个新的了解。
六.robots语法
User-agent 定义搜索引擎类型:
百度蜘蛛Baiduspider
谷歌蜘蛛Googlebot
360 蜘蛛360spider
soso蜘蛛Sosospider
有道蜘蛛YoudaoBot Spider
搜狗蜘蛛SOugou New
Disallow 定义禁止抓取收录地址(禁止整站、禁止一个文件夹、禁止路径关键词、禁止动态路径、禁止文件)
Allow 定义允许抓取收录地址
语法符号
1./单个符合搜索引擎认为是根目录
2.*能匹配0或者所有英文字符
3.$结束符
七.注意
1.符合使用的细节
2.生效时间 几天或者是两个月内
3.Sitemap 网站地图