读书人

nutch的根本工作流程理解

发布时间: 2012-10-27 10:42:26 作者: rapoo

nutch的基本工作流程理解

?

1 楼 comsci 2009-11-21 想咨询下楼主,如果我用n台机器搭建一个NUTCH服务器整列,那么NUTCH是否支持这种集群工作方式呢》 2 楼 chenlinping 2009-11-23 nutch基于hadoop,支持分布式的 3 楼 comsci 2009-11-24 chenlinping 写道nutch基于hadoop,支持分布式的
谢谢。。。我还想了解下NUTCH具体的分布式应用方式 4 楼 diddyrock 2009-11-24 nutch越搞越复杂了 5 楼 javaeyes 2009-11-24 nutch不算复杂的。comsci nutch在hadoop上运行,只要hadoop分布式部署了,nutch就可以分布式爬取 6 楼 biaowen 2009-11-24 有点膨胀。 7 楼 comsci 2009-11-25 javaeyes 写道nutch不算复杂的。comsci nutch在hadoop上运行,只要hadoop分布式部署了,nutch就可以分布式爬取

单机运行NUTCH和多机并行运行NUTCH,在搜索效率和存储空间上面有什么比较显著的区别吗? 8 楼 comsci 2009-11-26 另外有个问题想了解下,如果一个小企业或者个人实验室(person lab)要搭建一个基于NUTCH的搜索引擎整列出来,对系统硬件要求是怎么样的? 9 楼 diddyrock 2009-11-26 复杂太多了,有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了,实在是太复杂了,好在plugin写起来不是很困难,但是想要高效还是有点复杂。nutch对于硬件没有太多要求,一台个人pc就可以了,硬盘最好企业级。关键是网络的稳定,而且nutch有内存泄漏的bug,建议你等下一个稳定版本,或者直接trunk。 10 楼 comsci 2009-11-27 diddyrock 写道复杂太多了,有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了,实在是太复杂了,好在plugin写起来不是很困难,但是想要高效还是有点复杂。nutch对于硬件没有太多要求,一台个人pc就可以了,硬盘最好企业级。关键是网络的稳定,而且nutch有内存泄漏的bug,建议你等下一个稳定版本,或者直接trunk。
如果我们想抓取的网站仅仅限于有限多个网站的内容,而不像GOOGLE那样是全网抓取,那么有可能对存储的要求比较低,事实上我们也仅仅只需要这样的搜索引擎 11 楼 p_x1984 2009-11-27 在nutch中如何配置多个url,知道的麻烦说下。
抓取什么内容,主要看业务的方向。大部分的貌似都是网页中的部分内容。 12 楼 comsci 2009-12-26 同楼上,比如说我只想抓取40个网站的内容,这些URL是如何配置到NUTCH中去的呢? 13 楼 p_x1984 2009-12-26 这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。 14 楼 comsci 2009-12-27 p_x1984 写道这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。
还有个问题,如果要抓取多个URL的话,NUTCH的工作线程是怎么安排的呢? 15 楼 p_x1984 2009-12-27 你看nutch的源码了?在fetch.java类中有说明,具体的我还得看下源码。 16 楼 comsci 2009-12-29 另外,你们用的是什么版本的呢? 听说好像最新的版本不如老版本的好呢? 17 楼 p_x1984 2009-12-29 现在比较稳定还是nutch-1.0吧!

读书人网 >软件架构设计

热点推荐