读书人

.Net网站效率有关问题把Googlebot设

发布时间: 2012-01-26 19:40:46 作者: rapoo

.Net网站效率问题,把Googlebot设置为以更快的速度抓取网页时,CPU持续100%
情况简介:
www.ohr.cn 网站以 Asp.net 2.0 + MS SQL 2000开发

在Google的网站管理员工具中,有以下提示:
我们检测到 Googlebot 限制了在您的网站上抓取页面的速度,以确保您的服务器不会被占用过多的资源。如果您的服务器能够处理额外的 Googlebot 点击量,我们建议您选择下面的更快。

所以,我设置使用Googlebot以更快的速度抓取
Googlebot每天在23点左右会到网站进行高速抓取网页,持续时间大约20多分钟

我在对服务器的流量进行监测时发现了以上问题,当服务器的流量突然持续维持4M左右时,Googlebot一般在抓取,这里我监测了一下服务器的CPU状态(根据进程对CPU和内存的消耗),Googlebot抓取时,服务器的CPU一直在95-100%之间徘徊,其中两个线程消耗CPU最多,一个是负责ohr.cn下网站的进程w3wp.exe(根据iisapp -a命令指示的进程ID),一个是MS SQL Server的进程,这两个线程,总是一个是40%以上,一个是50%以上。

服务器配置:Intel 双核 2.8G/ 1G DDR2内存 / 160G Santa硬盘

*****************************
我的问题:
ohr.cn的开发没有什么尖端的技术,但是我们一般还是较侧重于性能,对sql较多地使用了存储过程。而且也尽量减少了其他方面对性能的需求。

虽然www.ohr.cn上的简历和职位是动态,每显示一个简历/职位要从多个SQL表中读取数据显示,但是Googlebot抓取会有多少线程?如果照目前的状况,是否说明ohr.cn的网站当前不足以支持5000人同时在线?

请高人指点:
象这种情况如何能更好地提高.net网站的处理性能,以减少CPU的消耗?
对.Net的程序和sql有什么优化的方案?
如何提高.net网站处理大量用户同时在线的处理能力?

[解决办法]
正常情况下cpu不高就可以了,那个快速抓取难免的
[解决办法]
jf
[解决办法]
我顶
[解决办法]
我顶 顶顶顶顶
[解决办法]
用其他机器抓 不要用服务器抓
[解决办法]
加缓存,
并且楼主机器内存不够呀,
SQL Server和Web在一台机器上,最好分开。
等bot来抓的时候你开启性能监视器存一下记录,看看到底那里消耗资源。
SQL Server开事件察看器。
找到瓶颈解决之……
[解决办法]
可以不让GOOGLE抓取的
[解决办法]
可以用个专门的HTPPHANDLE处理Googlebot,处理方法自己琢磨下,估计有门
[解决办法]
只能先找出性能瓶颈的位置,找不到位置解决不了啊
[解决办法]
快速抓取能有多少并发呢,如果快速抓取都不行的话,是不是说明同时在线人数太多了,也不行呢?

说对了!~
同时,网站和数据库服务器怎么可能在同一台呢?这可不是在开发调试中,分开分开
[解决办法]
抓取的并发不是太高..
我曾经记录过,下面是部分日志,你可以参考一下 IP:66.249.72.41 就是google的

IP:66.249.72.41 DateTime:2007-4-18 2:42:09
IP:66.249.72.41 DateTime:2007-4-18 2:42:10
IP:66.249.72.41 DateTime:2007-4-18 2:44:16
IP:66.249.72.41 DateTime:2007-4-18 2:46:27
IP:66.249.72.41 DateTime:2007-4-18 2:46:27
IP:66.249.72.41 DateTime:2007-4-18 2:48:33
IP:66.249.72.41 DateTime:2007-4-18 2:48:33
IP:66.249.72.41 DateTime:2007-4-18 2:49:45
IP:66.249.72.41 DateTime:2007-4-18 2:49:46
IP:66.249.72.42 DateTime:2007-4-18 2:50:43
IP:66.249.72.42 DateTime:2007-4-18 2:50:44
IP:127.0.0.1 DateTime:2007-4-18 2:52:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 2:52:49
IP:66.249.72.41 DateTime:2007-4-18 2:52:55
IP:66.249.72.41 DateTime:2007-4-18 2:54:58
IP:66.249.72.42 DateTime:2007-4-18 2:59:15
IP:66.249.72.42 DateTime:2007-4-18 2:59:16
IP:66.249.72.41 DateTime:2007-4-18 3:03:32
IP:66.249.72.41 DateTime:2007-4-18 3:03:33
IP:66.249.72.41 DateTime:2007-4-18 3:04:33
IP:66.249.72.41 DateTime:2007-4-18 3:04:34
IP:127.0.0.1 DateTime:2007-4-18 3:04:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 3:05:44
IP:66.249.72.41 DateTime:2007-4-18 3:05:45


IP:66.249.72.41 DateTime:2007-4-18 3:07:49
IP:66.249.72.41 DateTime:2007-4-18 3:07:49
IP:66.249.72.41 DateTime:2007-4-18 3:08:24
IP:66.249.72.41 DateTime:2007-4-18 3:09:24
IP:66.249.72.41 DateTime:2007-4-18 3:09:25
IP:66.249.72.41 DateTime:2007-4-18 3:09:59
IP:66.249.72.41 DateTime:2007-4-18 3:10:00
IP:202.108.11.106 DateTime:2007-4-18 3:10:59
IP:66.249.72.41 DateTime:2007-4-18 3:12:06
IP:66.249.72.41 DateTime:2007-4-18 3:12:07
IP:66.249.72.41 DateTime:2007-4-18 3:14:23
IP:66.249.72.41 DateTime:2007-4-18 3:14:24
IP:66.249.72.41 DateTime:2007-4-18 3:16:10
IP:66.249.72.41 DateTime:2007-4-18 3:16:23
IP:66.249.72.41 DateTime:2007-4-18 3:16:24
IP:127.0.0.1 DateTime:2007-4-18 3:16:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 3:18:31
IP:66.249.72.41 DateTime:2007-4-18 3:18:31
IP:66.249.72.41 DateTime:2007-4-18 3:20:02
IP:66.249.72.41 DateTime:2007-4-18 3:20:43
IP:66.249.72.41 DateTime:2007-4-18 3:20:44
IP:66.249.72.41 DateTime:2007-4-18 3:22:47
IP:66.249.72.41 DateTime:2007-4-18 3:22:48
IP:66.249.72.41 DateTime:2007-4-18 3:23:54
IP:66.249.72.41 DateTime:2007-4-18 3:25:03
IP:66.249.72.41 DateTime:2007-4-18 3:25:04
IP:66.249.72.41 DateTime:2007-4-18 3:27:04
IP:66.249.72.41 DateTime:2007-4-18 3:27:05
IP:66.249.72.41 DateTime:2007-4-18 3:27:46
IP:127.0.0.1 DateTime:2007-4-18 3:28:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 3:29:03
IP:66.249.72.41 DateTime:2007-4-18 3:29:04
IP:66.249.72.41 DateTime:2007-4-18 3:29:13
IP:66.249.72.41 DateTime:2007-4-18 3:29:15
IP:66.249.72.41 DateTime:2007-4-18 3:31:21
IP:66.249.72.41 DateTime:2007-4-18 3:31:22
IP:66.249.72.41 DateTime:2007-4-18 3:31:38
IP:66.249.72.41 DateTime:2007-4-18 3:33:31
IP:66.249.72.41 DateTime:2007-4-18 3:33:31
IP:66.249.72.41 DateTime:2007-4-18 3:35:33
IP:66.249.72.41 DateTime:2007-4-18 3:35:39
IP:66.249.72.41 DateTime:2007-4-18 3:35:40
IP:66.249.72.41 DateTime:2007-4-18 3:37:48
IP:66.249.72.41 DateTime:2007-4-18 3:37:48
IP:66.249.72.41 DateTime:2007-4-18 3:40:28
IP:66.249.72.41 DateTime:2007-4-18 3:40:29
[解决办法]
baidu
和sogou 和yahoo
的抓取量和google不是一个档次的


google会抓取你的每一个页面
google 抓了我6000多个页面

我建议你还是查看一下iis的访问日志或是自己在global中记录一下,对症下药

读书人网 >asp.net

热点推荐