一般来说,我们希望搜索蜘蛛光顾我们的网站越多越好,我相信每个新手站长都会是站长工具的常客,一大早起来就是关注自己网站的收录量.收录量的增长是一张晴雨表,升则忧、降则喜,我想告诉广大的站长朋友这完全没有必要,收录量不是目的,我觉得我们关注的重点应该是怎样让自己的网站拥有更多的百度搜索流量。
robots.txt是搜索引擎爬行网站的控制文件,按照一定的语法告诉搜索引擎哪些网页能爬,哪些不能爬,对于robots.txtd的介绍和书写语法,你可以参考这篇博文:网络蜘蛛访问控制文件robots.txt的写法 - WordPress教程。
可能你想说,收录量不是越多越好吗?
其实不然,网站的网页不是收录越多越好,大家都知道搜索引擎比较网络上的网页相似度(相似度太高的两个页面会分散权重)的时候,不仅仅会进行不同网站间的纵向比较,而且会进行同一网站不同页面间的比较,所以,比如对于个人博客的作者归档和首页,页面内容差不多一样,我们完全可以屏蔽蜘蛛访问作者归档的页面。下面我来详细地介绍一下WordPress怎样写robots.txt有利于SEO优化。
一、屏蔽没有必要收录的一些链接
1、屏蔽捉取站内搜索结果
- Disallow: ?s=*
这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。
2、屏蔽Spider抓取程序文件
- Disallow: /wp-*
屏蔽Spider捉取程序文件,wp-*表示wp-admin、wp-include等文件夹都不让搜索蜘蛛爬行,这节约了搜索引擎蜘蛛资源。
3、屏蔽feed
- Disallow: /feed/*
- Disallow: /*/*/feed/*
- Disallow: /*/*/*/feed/*
头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎抓取这些链接,相当有必要,应为feed里面的内容基本就是你文章内容的重复,相同内容会让百度降低单页面权重,同时这也节约蜘蛛资源和服务器的压力。
4、屏蔽捉取留言信息链接
- Disallow: /*?replytocom*
- Disallow: /comments/
- Disallow: /*/comments/
屏蔽留言信息链接。需要指出的是,屏蔽留言信息链接不是说不让蜘蛛收录你文章的评论页面,而是这样的链接打开后,整个页面就只有一个评论,完全没有被收录的必要,同时也节约蜘蛛资源,故屏蔽之。
5、屏蔽其他的一些链接,避免造成重复内容和隐私问题
- Disallow: /date/
- Disallow: /author/
- Disallow: /category/
- Disallow: /?p=*&preview=true
- Disallow: /?page_id=*&preview=true
- Disallow: /wp-login.php
这些屏蔽规则你可以根据自己的需求决定是否创建,屏蔽data、author、category等页面都是为了避免太多重复内容。
6、屏蔽短连接
- Disallow: /?P=*
屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。
7、屏蔽特定格式
- Disallow: /*.JS$
- Disallow: /*.css$
屏蔽对JS、css格式文件的抓取,节约蜘蛛资源,降低服务器压力,你可以根据实际要求是否屏蔽你的图片被抓取。
8、其它不想被抓取的页面
- Disallow: /*?connect=*
- Disallow: /*kod$
- Disallow: /api/*
/*?connect=*:我的博客登录链接
/kod/*:在线文件管理链接
/api/*:我自制的API链接
二、使用robots.txt需要注意的几点地方:
1、有独立User-agent的规则,会排除在通配“*”User agent的规则之外;
2、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果;
3、“#”号后的字符参数会被忽略;
4、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容;
5、每一行代表一个指令,空白和隔行会被忽略;
6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通百度站长工具,检查站点的robots.txt是否规范。
三、百度站长工具Robots工具的使用
百度站长平台Robots工具网址:https://ziyuan.baidu.com/robots/index
每次修改网站的robots.txt文件后都要在百度站长平台的Robots工具点击检测并更新,以此来使新的robots.txt文件在百度搜索引擎中生效。
附录
给大家分享一下我的robots.txt文件内容,这是我根据我自己WordPress博客的规则写的,大家在实际应用中,一定要根据自己网站进行书写!
本站robots.txt分享如下:
- User-agent: *
- Disallow: /wp-*
- Disallow: /author/
- Disallow: /*.css$
- Disallow: /*.JS$
- Disallow: /feed/*
- Disallow: /*/*/feed/*
- Disallow: /*/*/*/feed/*
- Disallow: /?s=*
- Sitemap: https://www.wangxiaoyou.com/sitemap.xml
- Sitemap: https://www.wangxiaoyou.com/sitemap.txt
相关链接
- 我的微信
- 微信扫一扫
-
- 我的微博
- 微博扫一扫
-
评论