Robots.txt文件中的Disallow: 命令中,禁止收录动态页面的写法是什么?

2021-02-05 10:46发布

4条回答
15210040217
2楼 · 2021-02-07 16:25

Disallow: /*?*

我是大脸猫
3楼 · 2021-02-20 15:11

1. 什么是robots.txt?
  robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。
2. robots.txt语法

   1) 允许所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
          User-agent:  *
          Disallow:
       或者
         User-agent:  *
         Allow:  /

      注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

   2) 禁止所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
           User-agent:  *
            Disallow:  /

   3) 只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
       robots.txt写法如下:
             User-agent:  *
             Disallow:  /css/
             Disallow:  /admin/
             Disallow:  /images/

         注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

        4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
            robots.txt写法如下:
                 User-agent:   *
                 Disallow:  /templets
                 Allow:  /main

       5)  禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)

              robots.txt写法如下:
                    User-agent:  *
                    Disallow: html/*.php

        6) 仅允许访问某目录下某个后缀的文件,则使用“$”
             robots.txt写法如下:
                   User-agent:  *
                   Allow:  .html$
                   Disallow:  /

         7)禁止索引网站中所有的动态页面
                比如这里限制的是有“?”的域名,例如index.php?id=1
                robots.txt写法如下:
                        User-agent:  *
                        Disallow:  /*?*
         
      8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
          有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。
        robots.txt写法如下:
             User-agent: *
             Disallow:  .jpg$
             Disallow:  .jpeg$
             Disallow:  .gif$
             Disallow:  .png$
             Disallow:  .bmp$



写robots.txt要注意的地方
       1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
  2. 斜杠:/ 代表整个网站
  3.如果“/”后面多了一个空格,则屏蔽整个网站
  4.不要禁止正常的内容
  5.生效时间是几天到两个月

IT学习
4楼 · 2021-02-23 09:57

什么是robots.txt?


  搜索引擎使用spider程序自动访问bai互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。


 


  请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。


 


  robots.txt 放置位置


  robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.180186.com)时,首先会检查该网站中是否存在http://www.180186.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。


 


  robots.txt 格式


  文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下。


 


  User-agent:


  该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。 如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例 如”Disallow: /help”禁止robot访问/help*.html、/help/index.html, 而”Disallow: /help/”则允许robot访问/help*.html,不能访问/help/index.html。


  "Disallow:"说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。


  Allow:


  该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。


  需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。


  使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。


  robots.txt文件用法举例:


  1. 允许所有的robot访问


  User-agent: * Allow: / 或者 User-agent: * Disallow:


  2. 禁止所有搜索引擎访问网站的任何部分


  User-agent: *


  Disallow: /


  3. 仅禁止Baiduspider访问您的网站


  User-agent: Baiduspider


  Disallow: /


  4. 仅允许Baiduspider访问您的网站


  User-agent: Baiduspider


  Disallow:


  5. 禁止spider访问特定目录


  User-agent: *


  Disallow: /cgi-bin/


  Disallow: /tmp/


  Disallow: /~joe/


  6. 允许访问特定目录中的部分url


  User-agent: *


  Allow: /cgi-bin/see


  Allow: /tmp/hi


  Allow: /~joe/look


  Disallow: /cgi-bin/


  Disallow: /tmp/


  Disallow: /~joe/


  7. 使用”*”限制访问url


  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。


  User-agent: *


  Disallow: /cgi-bin/*.htm


  8. 使用”$”限制访问url


  仅允许访问以”.htm”为后缀的URL。


  User-agent: *


  Allow: .htm$


  Disallow: /


  例9. 禁止访问网站中所有的动态页面


  User-agent: *


  Disallow: /*?*


  10. 禁止Baiduspider抓取网站上所有图片


  仅允许抓取网页,禁止抓取任何图片。


  User-agent: Baiduspider


  Disallow: .jpg$


  Disallow: .jpeg$


  Disallow: .gif$


  Disallow: .png$


  Disallow: .bmp$


  11. 仅允许Baiduspider抓取网页和.gif格式图片


  允许抓取网页和gif格式图片,不允许抓取其他格式图片


  User-agent: Baiduspider


  Allow: .gif$


  Disallow: .jpg$


  Disallow: .jpeg$


  Disallow: .png$


  Disallow: .bmp$


  12. 仅禁止Baiduspider抓取.jpg格式图片


  User-agent: Baiduspider


  Disallow: .jpg$


天使的奶爸
5楼 · 2021-02-25 10:14

robots.txt 放置位置


  robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.180186.com)时,首先会检查该网站中是否存在http://www.180186.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。


相关问题推荐

  • 回答 15

    1、指数,指数越高的,你头条号账号权重就越高,一般指数在400以上的,都算是正常的;2、单价,如果你发现你的账号单价下降,那就说明你的账号权重有问题即可能权重有所下降,反之账号单价上升,即可能是账号权重上升;3、推荐量,如果你账号发的文章整体推荐...

  • 回答 21
    已采纳

    1、抓取原理,搜索引擎会派搜索引擎蜘蛛们在互联网上通过url进行爬行,当然如果你觉得它们只是单纯的爬行那就不对了,它们会将这些爬到的内容收集记录起来。注意当搜索引擎蜘蛛找到你的网站之后,会随着你网站上的结构一层一层的爬行,而如果遇到了爬不出去的...

  • 回答 17

    首先,提高权重,我们都知道当网站的权重越高,搜索引擎就越喜欢过来抓取网站,像那些大型的门户网站,收录都是几百万几千万的,权重越高页面承载量就越大,蜘蛛爬的就,网站有权重那么则是表示搜索引擎对网站有一定的认可。然后,网站更新和更新频率,相信很...

  • 回答 8

    基木鱼致力于解决广告投放全生命周期的营销痛点,提供全面的免费建站能力。帮助广告主快速实现多类型线索收集,支持全链路数据监控,以满足广告主多场景的解决方案需求。  它的主要作用有以下几个方面:  全面的建站能力,落地页呈现更丰富。  更强大的...

  • 回答 5

    seo未来的出路主要包括这几方面:1、对于广告主来说,塑造品牌成为一个共识。国民消费结构的演变带动了我国产业结构的转型升级,品牌、口碑和商品品质已成为影响消费者购买决策的重要因素。此外,企业若想获得高额利润,品牌的溢价能力更是不容忽视,它可以让...

  • 回答 16

    看你是做网站美工还是后台编程,网站美工最基本要精通PS和flash,因为大部分的静态网站靠美工的搭配。但是要做动态网站就需要专业的代码知识,不过现在好多功能代码网上都能找到,这些都是在工作中逐渐丰富的...

  • 回答 15

    网站的外链是能提高百度蜘蛛来访的主要原因之一。那外链中效果最好的友链,能换到高质量的友链那再好不过了;文章外链,这里要注意自身网站发布文章立马到收录快的平台去发布...

  • 回答 13

    移动端兼容性移动端网站最大的缺点是客户浏览的时候使用的设备屏幕比较小,限制了网站的特效和一些功能的发挥。还有就是图片加载速度,这个也是移动端的痛点,有的图片过大,造成错版而且对移动端网站加载的速度很慢,影响客户体验。解决方案是移动端图片建议...

  • 回答 15

    其实万变不离其宗,底层原理都是一致的,只不过搜狗和百度的渠道不一样而已

  • 回答 6

    主要是一些常用指标数据的同比和环比,比如访客、页面浏览量、跳出率、访问深度、注册转化等,

  • 回答 6

    搜索引擎优化的技术手段主要有黑帽(black hat)、白帽(white hat)两大类。通过作弊手法欺骗搜索引擎和访问者,最终将遭到搜索引擎惩罚的手段被称为黑帽,比如隐藏关键字、制造大量的meta字、alt标签等。而通过正规技术和方式,且被搜索引擎所接受的SEO技术,称...

  • 回答 8

    1寻找要交换的友情链接,可在友情链接交换网站和链接交换群寻找合适链接进行交换。2百度搜索友情链接交换,进入交换友链网站,查找与自己相关进行联系交换。3在群搜索要交换行业的友链群,进行交换。4找到要交换的链接,先查看链接情况如收录,排名,反链,权...

  • 回答 2

    1)空间的大小;空间的大小影响网站文件资料的存放。2)主机空间的配置:包括如主机空间、流量、静态化、htaccess、IIS并发连接等,特别要注意支持的程序语言和数据库。3)云主机的数据安全:这部分主要考虑病毒、关于数据备份及恢复能力4)空间宽带:这部分...

  • 回答 1

    百度权重与以下几方面因素有关:  1、域名年龄:时间越长,相对获得的信任度越高,时间短,则权重要低;  2、内容的原创性:所有的搜索引擎都表示喜欢远程性的东西,所有好的原创文章和内容一定会获得高的权重; 3、内容的更新时间:几天一更新和天天更新一...

  • 回答 4

    第一,网站内容没有填充好或者网站结构有问题,只有网站首页可以被搜索引擎识别到,所以只收录了首页。解决办法:针对内页的内容等进行合理解决。第二,网站是新站,在新站审核期,所以只收录了首页,而内页收录以后没有释放。解决办法:耐心等待。第三,查询...

没有解决我的问题,去提问