电脑计算机论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1706|回复: 0

知道为什么统计代码统计不了蜘蛛吗

[复制链接]
admin 发表于 2010-8-10 15:23:22 | 显示全部楼层 |阅读模式
首先搜索引擎的蜘蛛基本不解析执行页面上的script脚本代码,因为脚本太复杂,解析起来效率太低。蜘蛛每天要抓上百万的页面,效率很重要。

另外蜘蛛抓取是按域名来的,换句话说蜘蛛的抓取是有选择的,会针对不同域名,其抓取频率也不同,统计代码用的不是贵站的域名,所以当蜘蛛抓取统计代码的时候是在cnzz.com域名下,所以是cnzz.com的抓取频率,并不代表贵站被蜘蛛抓取的频率。有的统计宣称在贵站网页上放他们域名的链接等就可以统计蜘蛛抓取,基本是忽悠您给他加友链,为他提高pr呢。


蜘蛛会通过网页的链接发现别的网站,但是这仅是发现(新网站入库),在抓取的时候,还是会保持内聚性,深入抓取贵站的内容。至于发现的新网站,会派发给后续蜘蛛任务。


第三,蜘蛛抓取针对不同资源的抓取频率也是不同的,同一个页面上的正文和图片等,蜘蛛抓取频率是不一样的。搜索引擎公司都为不同类型的资源配备不同类型的专有蜘蛛,绝对不是胡子眉毛一把抓的。


所以,蜘蛛抓取贵站的行为,只能通过分析贵站服务器log来获取,因为抓取需要向服务器发请求,会被服务器记录下来。这也是为什么有的网站服务器负载很高,但是pv并不高的原因。因为没多少用户在看,都是蜘蛛在请求服务。
目前搜索引擎蜘蛛的抓取力度很大,提供搜索引擎蜘蛛的公司也很多,目前互联网上约有1/3的访问是由搜索引擎蜘蛛产生的。各位站长需要为应对搜索引擎蜘蛛的抓取预留更多的服务器资源。
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|手机版|小黑屋|电脑计算机论坛 ( 京ICP备2022023538号-1 )

GMT+8, 2024-5-4 02:34 , Processed in 0.074713 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表