网络爬虫也就是搜索引擎的程序,网络爬虫又被称为是网页蜘蛛程序,网络机器人,是一种按照一定的规则抓取网页的程序。自动抓取网络上所有网站的信息脚本,已经被应用到了各个网络的互联网领域,网络蜘蛛有很多,有好友坏,下面就列举下常见的蜘蛛爬虫:
网络爬虫程序分为几类
一,Google爬虫
算法优秀,国外的爬虫工具,对内容质量好的站反应速度快,中等的强度爬虫,对服务器负担小。
对应user-agent:爬虫名称
Googlebot:google网页爬虫程序
Googlebot-news:google新闻爬虫程序
Googlebot-image:google图片爬虫程序
Googlebot-video:google视频爬虫程序
Googlebot-mobile:google移动爬虫程序
Mediapartners-google广告爬虫程序
Mediapartners(googlebot):google广告爬虫程序
Adsbot-google:google着陆页质量检测爬虫程序
二,百度爬虫程序
算法良好,国内的搜索引擎爬虫,反应速度迟钝,对原创内容质量要求高,高强度的爬虫程序,隐私保护性强,在百度面前没有隐私可言,推广效果好。
对应user-agent:爬虫名称
Baiduspider:百度网页爬虫兼移动爬虫程序
Baiduspider-image:百度图片爬虫程序
Baiduspider-video:百度视频爬虫程序
Baiduspider-news:百度新闻爬虫程序
Baiduspider-favo:百度搜藏爬虫程序
Baiduspider-cpro:百度联盟爬虫程序
Baiduspider-ads:百度商务爬虫程序
三、好搜(即360)爬虫程序
类似百度之前的算法,反应迟钝,对内容质量要求不足,高强度的爬虫程序,无隐私可言,推广效果好。
对应user-agent:爬虫名称
360spider或haosouspider:好搜网页爬虫兼移动爬虫程序
360spider-image:好搜图片爬虫程序
360spider-video:好搜视频爬虫程序
四、搜狗爬虫程序程序
算法一般,反应速度迟钝,不能良好的把握原创质量的内容,强度的爬虫工具,算法误差大,对页面抓取量反复且无意义的扫描,对服务器的负担大,推广效果差。严重的内部点击,搜狗的本身流量也少,收录慢,抓取压力大,综合评分差。
对应user-agent:爬虫名称
Sogouspider:搜狗综合爬虫程序
五、新浪爱问爬虫程序
基本类似搜狗的爬虫程序,各种性能的体验查,推广效果差。
对应user-agent:爬虫名称
Iaskspider:新浪爱问爬虫程序
六、有道爬虫程序
基础的爬虫工具,性能一般,对服务器容易造成负担,推广效果差。
对应user-agent:爬虫名称
YodaoBot:网易有道爬虫程序
七、Alexa爬虫程序
Alexa爬虫,用户检测网站的整站Alexa排名,如果如果做了Alexa排名屏蔽,就能很好的避免到被抓取的效果。
对应user-agent:爬虫名称
ia_archiver:Alexa爬虫程序
八、雅虎爬虫程序
算法优良,反应速度还可以,高强度的爬虫工具,算是比较规范的爬虫,推广效果好。但雅虎已经关闭了站长服务,并把数据到了必应。
对应user-agent:爬虫名称
Yahoo!Slurp:雅虎爬虫程序
九、必应爬虫程序
整体性能好,按照世界上的搜索引擎占比来说,必应的算法算是接近百度,国内本土化不足导致的流量少。
对应user-agent:爬虫名称
Bingbot:必应爬虫程序