定云止水营销日记33:网站robots.txt怎么写,掌握搜索引擎蜘蛛的秘密!

定云止水营销日记 120 0

网站seo经常说设置robots协议,百度站长平台也有个robots检测,那么robots到底是什么,有什么用呢?今天定云止水小编给大家讲解。

一、robots是什么

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。【引用百度百科】

二、robots怎么写

一般格式如下:User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.phpSitemap: https://www.xxx.com/sitemap.xmlUser-agent: 这个设置的是允许哪些蜘蛛抓取我们网站,*代表全部。(蜘蛛ua问题下文再说)Disallow:指的是禁止抓取的内容,比如禁止抓取某个目录。Allow: 允许抓取的内容(这个默认可不写)sitemap:设置网站地图的路径。

基本上robots设置的内容就这些,我们可以根据需求设置,比如禁止蜘蛛抓取某些内容,允许蜘蛛抓取某些内容。

三、蜘蛛ua

怎么用蜘蛛ua还是有很多用处的,我们可以用来禁止别人采集我们网站内容,比如我们可以设置某个目录打不开,但是允许蜘蛛抓取,这样别人就采集不了我们文章了。(这玩意宝塔防火墙可以设置)同时还可以让用户和蜘蛛在我们网站看到不一样的内容,意思是说用户打开网页是一篇正常的文章,而蜘蛛抓取的时候确实另外的内容,这种跳转方式黑猫用的比较大,白帽也可以用来做站群推广产品。

四、总结

这就不总结了吧,只要了解怎么写就可以了,可以禁止网站的一些无效目录。至于更深入的玩法,可以百度了解学习。

定云止水营销日记33:网站robots.txt怎么写,掌握搜索引擎蜘蛛的秘密!-第1张图片

附ua(百度收集整理):

1、百度蜘蛛:Baiduspider Baiduspider-image baiduboxapp Baiduspider-render

2、 谷歌蜘蛛:Googlebot (很勤奋的蜘蛛) Googlebot-Image Google-Read-Aloud Googlebot-Video

3、 360蜘蛛:360Spider (很勤奋的蜘蛛)

4、 搜狗蜘蛛:SogouSpider, Sogou web spider

5、 神马蜘蛛:YisouSpider (UC浏览器默认搜索sm.cn的蜘蛛)

6、 必应蜘蛛:bingbot BingPreview

7、 有道蜘蛛:YoudaoBot,YodaoBot

8、 MSN蜘蛛:msnbot,msnbot-media

9、 雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

10、 Yandex蜘蛛:YandexBot (俄罗斯搜索引擎)

11、 DNSPOD监控蜘蛛:DNSPod-Monitor

12、 MJ12bot:MJ12bot (英国SEO分析页面蜘蛛)

13、 SEMrush:SemrushBot (美国SEO综合分析网站的蜘蛛)

14、 头条蜘蛛:Bytespider (今日头条旗下:高频抓取 被很多站长封禁后 有所改善)

15、 华为蜘蛛:AspiegelBot ( 华为旗下Aspiegel公司 疯狂高频爬行无节制 )

标签: 网站robots.txt

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~