网站同一资源(网页),具有不同地址:平白给自己压力?
以下A和B指向实为同一个资源:
A: http://www.iteye.com/topic/39
B: http://www.iteye.com/t/39.html
A: http://www.iteye.com/article/9258
B: http://www.iteye.com/a/9258.html
。。。
虽然xxx.html为静态的页面,不会根据判断请求用户是否登录,但是
类似的,同一资源的uri地址还是应该考虑固定下来一个,不要提供多种形式,
否则搜索引擎将视为不同的资源进行抓取,无故给自己加大了好些压力。(翻倍啊)
1 楼 yehs220 2007-12-07 静态化...? 2 楼 Readonly 2007-12-07 是静态页面吧,不过你是怎么发现这些.html链接的? 3 楼 Qieqie 2007-12-07 Readonly 写道是静态页面吧,不过你是怎么发现这些.html链接的?
“无意”中,
http://www.iteye.com/a/t1.html
补充:
网站如果要把某些做静态化,这是没问题的。但是可以考虑他们使用的是同一个url,
服务器根据topicid或cookie信息判断实际是请求静态的html,还是从database计算出来:
比如:topicid<xxx的,或cookie显示还没有登录的到静态的地方去请求?
爬虫对网站的压力不可谓不小,所以可以考虑改善改善
或者再次之:
为这样的页面:http://www.iteye.com/a/t1.html,加上noindex,nofollow的标志
同时也为http://www.iteye.com/t/7462.html,加上noindex,nofollow的标志 4 楼 Qieqie 2007-12-07 补充2:
对这样的地址:http://www.iteye.com/post/426109
可以考虑,服务器判断post 426109对应的topic id xxx后
然后redirect给用户: http://www.iteye.com/topic/xxxx#426109
从而避免爬虫分别从http://www.iteye.com/topic/xxxx和http://www.iteye.com/post/426109
这2个入口爬同一个资源
这也能减少爬虫对网站的一些压力
-----------------
我即得Robbin曾说被爬虫烦死了,以上作为自己的看法提供参考 5 楼 robbin 2007-12-07 早期考虑过动态页面静态化技术,所以做了一些静态页面。但是后来发现其实JavaEye的服务器完全支撑得起来几十万到上百万的访问量,所以静态化没有什么必要性,而且带来很多麻烦的问题,所以就弃之不用了。但是因为有些静态页面已经被搜索引擎索引,因此一直没有删除。等3.0上线以后,就清理掉吧。
静态页面由lighttpd直接处理掉,不会对服务器造成什么压力。就算垃圾爬虫,也不怕它爬静态页面,lighttpd支持上万的连接都没问题。 6 楼 Qieqie 2007-12-07 robbin 写道
因为有些静态页面已经被搜索引擎索引,因此一直没有删除
3.0删除之后,也不担心从搜索引擎过来的链接不会404
发现是/a/xxx.html,/t/xxx.html的,直接回送redirect请求到 /article/xxx, /topic/xxxx
不过既然是早期的做法,可能这些也不多了,渐渐也就从搜索引擎中沉了 7 楼 lordhong 2007-12-07 几年前服务器POWER太弱, 所以都往STATIC PAGE方面优化.
现在CUP+RAM都UP了N倍, DYNAMIC PAGE可以应付了...