爬虫的境界,原来可以如此。。。
最近搞了个新站(id86.com),技术型论坛,想了想数据来源是个问题,于是乎花了两三天的下班时间搞了几个爬虫,针对wenwen.soso.com的
ruby, js, css ,php, ubuntu, centos, mysql, oracle,相关的帖子都是通过这个爬虫从soso那边抓过来的。
感觉用ruby写爬虫相当给力啊,是迄今为止遇到过写采集最方便的,当然是对比脚本语言这一系列来说的
这里面包含一些小的细节:
(1) 通过ruby以用户管理员身份登录网站,创建新用户
discuz X的数据系统确实不敢深究,虽然知道他的一部分机理,比如ucenter_members, common_member这一堆表的用法,但最终还是采用的是通过post请求的方式来添加需要的用户, 没敢去尝试用ruby脚本改数据库。虽然之前迁移过80万用户、700万帖子的论坛。
(2) 通过ruby脚本改数据库,发表主题,发贴
(3) 通过ruby脚本结合imagemaigck给用户搞头像。
地址是: www.id86.com。现在除了抓过来的数据,其他啥也没有。相当于一个垃圾桶吧。哈哈。 1 楼 zfj.rails 2011-05-26 发错号了。摘了两个iteye号。悲催。 2 楼 Hooopo 2011-05-26 ruby做定向爬虫还是很方便的 3 楼 181054867 2011-05-30 完全不知在说什么,垃圾文章 4 楼 diddyrock 2011-05-30 请问大仙爬问问的时候时间间隔设置的是多少啊 5 楼 hcyoo 2011-05-30 很多用户的头像都是重复的 6 楼 jerry 2011-05-30 以为你要发布一下你的爬虫代码呢。原来是显摆帖。 7 楼 prettyinsight 2011-05-30 LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有? 8 楼 caizi12 2011-05-30 prettyinsight 写道LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?
算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。 9 楼 neverforget 2011-05-30 问问从去年10月份开始防采集的 有时间间隔限制
你怎么处理的 10 楼 neverforget 2011-05-30 你爬的数据好像不多 我曾一天一夜让它爬过50万条记录 SOSO的 后来没几天SOSO发现了 开始间隔时间限制了
贫僧有罪!
11 楼 prettyinsight 2011-05-30 caizi12 写道prettyinsight 写道LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?
算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。
还要假惺惺的加上版权说明,太假了!有木有 有木有 12 楼 starmb 2011-05-30 源码贴来瞅瞅吧,楼主。。 13 楼 ericjoe 2011-05-31 id86.com使用什么搭建的? 14 楼 JLK 2011-05-31 LZ在打广告吗? 15 楼 brucewei777 2011-05-31 网站里一般都有个robot.txt文件,说明了该网站允许哪些机器人爬内容
不经允许的爬内容,似乎不妥 16 楼 liuyupy 2011-05-31 brucewei777 写道网站里一般都有个robot.txt文件,说明了该网站允许哪些机器人爬内容
不经允许的爬内容,似乎不妥
似乎不妥就妥了。。。有哪几个爬虫遵循这个规范呃。。。更何况是自己整的。 17 楼 caizi12 2011-05-31 prettyinsight 写道caizi12 写道prettyinsight 写道LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?
算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。
还要假惺惺的加上版权说明,太假了!有木有 有木有
怎么假了,不明白,很多网站不都写着如果转载请注明原出处,版权之类的。他这只是变相的转载而已。 18 楼 zfj.rails 2011-06-01 HOHO!。居然这么多人关注 19 楼 zfj.rails 2011-06-01 现在soso有防爬机制,如果是爬文章列表,一般sleep 2秒就OK。
不过,后面搞内容的时候,我加了其他的操作,比如增加用户,这个要花个一两秒,所以就没有sleep了,soso上面的那个用户名简直不敢恭维,太非主流了。
最近在写taobao的图片爬虫,有防盗链设置,整起来要费事一些。呵呵
代码一会上班我贴出来,写得不是很好