网站Robots.txt的最新写法是什么？这一篇就够了

robots文件 SEO白帽产品图自定义页 allow Disallow User-agent 爬行抓取 Baiduspider 搜索引擎蜘蛛

网站Robots.txt的最新写法是什么？这一篇就够了

2020-03-14 13:54发布生成海报

站内文章 / SEO优化

1029 0

对于站长来说，Robots协议一直是大家比较关注的问题。关于Robots协议的写法网上也有很多种方法，今天就从以下几个方面来介绍Robots，让大家通过这篇文章对Robots有个全面系统的认识。

平时在浏览百度的时候很少发现有今日头条的内容信息，淘宝的产品信息，阿里大鱼自媒体信息。为什么呢？原因就是因为这些网站都对百度搜索引擎设置了Robots协议，禁止让百度搜索引擎抓取，如题1-1所示，图为淘宝的Robots协议，如果现在还看不懂下图标注部分的意思，通过接下来的阅读，让你快速完成以下三个目标。

第一个：对Robots协议有个全面的了解

第二个：可以很好的读懂淘宝Robots红色标注协议的意思

第三个：能够看懂淘宝对待googlebot（谷歌机器人）和baiduspider（百度蜘蛛）有什么不同

图1-1淘宝robots部分截图

本节内容通过以下六个点来讲解：

1. Robots定义

2. 为什么要研究Robots

3. Robots常用语法

4. 个别Robots指令示例

5. Robots在工作中常见应用场景

6. Robots怎么做

以下为明细明细：

1. 关于定义：Robots指令是搜索引擎来到网站第一个访问的文件，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

2. 为什么要研究Robots：更好的告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取，对一些没有必要抓取的页面进行第一时间屏蔽

3. 常用语法：Robots常用的语法为以下几种：

（1）User-agent：代表搜索引擎名称

（2）Disallow释义：不允许访问

（3）Allow释义：允许访问

（4）* ：匹配任意字符内容

（5）$ ：行结束符，通常为页面使用，栏目通常使用“/”（示例:Disallow:/.htm$ ）

4. 个别指令示例：有个别指令需要特殊说明，可以有助于大家更好地认识Robots，内容如下：

（1）Disallow: 不允许

（2）Disallow:/ 根目录下面所有文件都不允许抓取

（3）Disallow:/a a开头的目录文件不允许抓取

（4）Disallow:/a/ 不允许抓取a文件夹

（5）Disallow:/chanpin/

（6）Disallow:/*?* 不允许抓取动态url

5. Robots在工作中常见应用场景：有些同学可能会问Robots在工作中到底怎么用呢？我们经常碰到的三种使用场景如下：

（1）新网站没有正式上线，屏蔽搜索引擎

（2）有些栏目不想让搜索引擎爬行抓取（不重要的栏目）

（3）动态URL屏蔽

6. Robots怎么做：

（1）新建Robots.txt文档

（2）撰写Robots协议规则要求

（3）上传到网站空间根目录（可以去百度搜索资源平台，进行检测访问权限是否生效）

以上为Robots的知识概括内容，来看一下一开始留下的关于淘宝的Robots协议的答案解析，淘宝屏蔽了百度搜索引擎对淘宝产品页的抓取（语法：Disallow：/product/），但是并没有对谷歌搜索引擎做屏蔽。了解更多关于Robots的思考，请参与留言互动吧。

网站Robots.txt的最新写法是什么？这一篇就够了

Ta的文章更多 >>

热门文章

网站Robots.txt的最新写法是什么？这一篇就够了

Ta的文章 更多 >>

热门文章

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

Ta的文章更多 >>