电脑计算机论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1914|回复: 0

Url blocked by robots.txt的解决办法

[复制链接]
admin 发表于 2013-5-5 08:29:53 | 显示全部楼层 |阅读模式
前几天才把自己论坛的sitemap.xml提交给谷歌网站管理员工具,今天见到了网站管理员工具显示警告Url blocked by robots.txt(链接地址被robots.txt限制不让收录),我感觉很纳闷,研究了好一会儿得出了结论,下面是我的解决方案和对robots.txt书写的总结。        先附上谷歌网站管理员工具的警告全文,这个的显示位置在:登录谷歌网站管理员工具-进入网站仪表盘-点击优化-进入sitemap-查看警告信息,就可以找到相关的信息。
1: //谷歌网站管理员工具的警告提示:  
2:
//Sitemap contains urls which are blocked by robots.txt.  
3:
//实例值: http://www.it168bbs.com/gongzuo/   
4:
//实例值: http://www.it168bbs.com/gongzuo/125.html  
5:
//实例值: http://www.it168bbs.com/gongzuo/127.html

很明显的看出,实例值是集中在/gongzuo/目录下面,难道robots.txt限制抓取了这个目录吗?答案是并没有,下面是我的robots.txt的内容:
   1: User-agent: *
   2:
Disallow: /plus/ad_js.php  
  3:
Disallow: /plus/car.php
  4:
Disallow: /plus/carbuyaction.php  
  5:
Disallow: /plus/shops_buyaction.php  
6:
Disallow: /plus/erraddsave.php   
7:
Disallow: /plus/posttocar.php  
8:
Disallow: /plus/disdls.php  
9:
Disallow: /plus/rss.php
10:
Disallow: /plus/recommend.php  
11:
Disallow: /plus/stow.php
12:
Disallow: /plus/count.php
13:
Disallow: /include
14:
Disallow: /templets
15:
Disallow: /go
16:
Disallow: /xiezewen  
18: Sitemap: http://www.it168bbs.com/sitemap.xml

的确,从上面的源码可以看出,并没有限制/gongzuo/目录的抓取。但是我仔细一想,马上就明白是怎么回事了。原因出在了第十五行代码。
   15: Disallow: /go

从这一个代码可以看出,这一句原本想要限制/go文件夹目录的抓取,但是最终却也限制了以这个开头的gongzuo目录,因此要做一个修改
   15: Disallow: /go/

这样就可以实现想要的功能,加上一个反斜杠。所以在书写robots.txt的时候,一定要小心了。否则,当你的网站链接无法被抓取的时候,你还不知道呢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|手机版|小黑屋|电脑计算机论坛 ( 京ICP备2022023538号-1 )

GMT+8, 2024-5-2 09:14 , Processed in 0.076218 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表