欢迎光临武汉SEO公司武汉爱擎科技有限公司官方网站www.aiqingkeji.com!
18071545960

网站SEO优化时robots文件写法以及注意事项

  Robots.txt是存放在站点根目录下的一个的纯文本文件,蜘蛛进入网站做的第一件事就是抓取robots文件,看看其规定了什么?它具有强大的功能和作用:

  从seo优化角度来说,一份好的Robots文件可以规定搜索引擎蜘蛛那些内容可以抓取,哪些内容不能抓取,这也为搜索引擎节约了大量的搜索资源,对于搜索引擎来说肯定是比较喜欢的,同时也可以让搜索引擎对我们的站点增加友好度。以及网站的动态链接统一化,同一路径有利于集中权重。从我自身来说,可以保护个人隐私不至于被公开,例如:网站隐私、后台用户信息等。



  一:学习robots文件编写,前提是得熟悉网站url和Url的原理以及网站程序目录。为什么?很简单蜘蛛是通过url抓取的。文件具体形式,以阿里云主机根目录为例,格式表示如下:

  技巧:域名=根目录。

  /htdocs/=域名

  /htdocs/skin/=域名/skin/

  /htdocs/skin/css/=域名/skin/stivle.css/

  二:robots写法注意点:冒号后面有一个空格,必须全英文模式书写,字母大小写要注意,这是比较严谨的,需要特别注意。例如

  Disallow:/ab/abc/

  Allow:/ab/abc/

  User-agent:Baiduspider

  网站robots文件写法完整版以及注意事项

  三:操作流程以及写法:桌面新建一个.txt文件,在文件上写robots规则。

  1:下面先来看看名词定义解释,不同的搜索引擎有不同的蜘蛛。

  【1】:User-Agent:对蜘蛛进行的规定(1)对百度蜘蛛的规定User-agent:Baiduspider。(2)谷歌User-Agent:Googlebot(3)必应User-agent:Bingbot(4)360 User-Agent:360Spider(5)宜搜User-Agent:Yisouspider(6)搜狗User-Agent:Sogouspider(7)雅虎User-Agent:Yahoo!Slurp

  User-Agent:*指对所有的蜘蛛

  【2】:Disallow:指禁止抓取。

  【3】:Allow:指允许抓取。

  2:写法:以上三个格式综合使用,例如:我们要屏蔽/skin/文件夹里面的一部分文件,但是又希望抓取到/skin/文件夹里面的/css/文件夹,书写技巧:先禁止抓取/skin/文件夹,后面再允许抓取/css/文件夹就可以了。

  Disallow:/skin/表示禁止抓取/skin/文件夹

  Allow:/css/表示允许抓取/skin/文件夹里面的/css/文件夹

  注意点:前后都有斜杠表示文件夹。

  3:符号名词解释:

  (1)*通配符:代表所有的。例如:

  User-Agent:*就是表示对所有的蜘蛛

  Allow:/skin/*表示允许包括/skin/文件夹以下的所以文件

  (2)$终止符:表示结束。例如不允许抓取.js结尾的文件,写成:Disallow:/*.js$

 

  四:常见屏蔽对象:

  1:中文的链接-路径,抓取不友好,或者我们不需要它来排名。例如屏蔽“联系我们”:Disallow:/lianxi/

  2:搜索结果页面,重复的质量低的。例如:

  https://www.shiguangkey.com/course/search?key=%E5%BB%BA%E7%AD%91&cateKey=%E5%BB%BA%E7%AD%91

  https://www.shiguangkey.com/course/search?key=%E4%BD%A0%E5%A5%BD&cateKey=%E4%BD%A0%E5%A5%BD

  技巧:先找到规律。假如我们不允许抓取以下的,写成:Disallow:/course/search?key=*

  3:动态路径,链接规律:?%/?等等例如屏蔽带有?号的动态链接:Disallow:/*?*

  4:js文件的Disallow:/*.js$备注:官方的说法,关于js使用建议

  5:网站的目录:模板目录、插件目录、后台目录。。。。。。

  (1):wordpress:如图

  

  (2)织梦程序的。如图:

  

  五:编写误区:

  区别性:例如

  Disallow:/ab=Disallow:/ab*

  Disallow:/ab/前后有斜杠的/ab/代表单个文件夹

  Disallow:/ab=Disallow:/*斜杠代表了整个网站,范围更广。

  例:

  Disallow:/ab这个规则对于以下两个链接都是屏蔽的:Disallow:/abc Disallow:/ab/123

  Disallow:/ab/这个规则,只对Disallow:/ab/123生效,对于Disallow:/abc是无效的。

  六:网站安全:Disallow:/dede就知道网站是织梦做的,就会暴露网站程序。

  1:织梦后台是可以修改程序的,例:Disallow:/dede把dede改成ffff即:Disallow:/ffff

  2:wordpress呢,例:Disallow:/wp_admin修改成:Disallow:/*admin

  七:检测:写完robots文件后,记得检测一下文件。我们可以到百度站长平台校验。

  八:由于蜘蛛首先抓取的是robots文件,所以我们需要把我们网站地图【网站链接集成】写入到robots文件里面,可以放在文件最底部,方便蜘蛛更快抓取和更好收录。

  总之robots.txt文件是个比较严谨,书写过程严格按照规则来,当然最重要的是写好之后要检查,以防书写错误,导致蜘蛛抓取不到。


版权声明:
本网站发布的文章网站SEO优化时robots文件写法以及注意事项为武汉爱擎科技有限公司原创或网络收集、整理,当前文章地址:http://www.aiqingkeji.com/show/181.html,如有涉及版权问题请与本网站联系删除!版权归原作者所有,转载请注明出处!

    你觉得这篇文章怎么样?

    10
    上一篇:暂无资料 下一篇: seo优化时常用的五种寻找关键词方法
    相关内容