网站SEO基础知识第34篇:网站Robots.txt文件详解

SEO基础 2个月前 (04-20) 67次浏览 已收录 0个评论

网站robots.txt对于任何一个从事 SEO 研究工作的人都是至关重要的,因为透过网站robots.txt我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。下面株洲网站优化就详细解说一下网站robots.txt文件。

网站 SEO 基础知识第 34 篇:网站 Robots.txt 文件详解

一、为什么设置robots.txt

在进行 SEO 操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

二、一些常见的问题和知识点

1、蜘蛛在发现一个网站的时候,第一步是抓取网站的robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);

2、建议所有的网站都要设置robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的 robots.txt 文件;

三、在 robots.txt 文件中设置网站地图

你可以在 robots.txt 中添加网站的地图,告诉蜘蛛网站地图所在的地址。

四、robots.txt 的顺序

在蜘蛛协议中,Disallow 与 Allow 是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。

引擎蜘蛛程序会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个 URL,一个例子可以让你更清楚明白:

User-agent: *
Allow: /jishu/bbs/
Disallow: /jishu/

这个情况下,蜘蛛对/jishu/bbs 目录可以正常抓取,但对/jishu/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分 url。

我们对调下位置观察一下。

User-agent: *
Disallow: /jishu/
Allow: /jishu/bbs/

/jishu/目录出现在第一行,禁止抓取目录下的所有文件,那么第二行的 Allow 就无效,因为第一行中已经禁止抓取/jishu/目录下的所有文件,而/bbs/目录正好位于/jishu/目录下。因此匹配不成功。

五、robots.txt 路径问题

在蜘蛛协议中,Allow 和 Disallow 后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的 URL 形式,而相对链接只针对根目录。这是重点记住。

六、斜杠问题

Disallow: /jishu 表示禁止抓取 jishu 这个目录下的所有文件,比如 jishu/1.html、jishu/10.html、jishu/100.html 这些都抓取不到;

Disallow: /jishu/表示禁止抓取 jishu 这个目录,但是 jishu/1.html、jishu/10.html、jishu/100.html 仍是可以抓取到的。

最后,株洲网站优化建议大家看一下我之前写的网站 robots.txt 怎么写这篇文章。


本文版权归湖南株洲 SEO所有丨如需转载请注明文章出处
原文地址:https://www.wangxiaoyou.com/801.html
喜欢 (0)
[736035566@qq.com]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址