nutch的根本工作流程理解

nutch的基本工作流程理解

1 楼 comsci 2009-11-21 想咨询下楼主，如果我用n台机器搭建一个NUTCH服务器整列，那么NUTCH是否支持这种集群工作方式呢》 2 楼 chenlinping 2009-11-23 nutch基于hadoop，支持分布式的 3 楼 comsci 2009-11-24 chenlinping 写道nutch基于hadoop，支持分布式的
谢谢。。。我还想了解下NUTCH具体的分布式应用方式 4 楼 diddyrock 2009-11-24 nutch越搞越复杂了 5 楼 javaeyes 2009-11-24 nutch不算复杂的。comsci nutch在hadoop上运行，只要hadoop分布式部署了，nutch就可以分布式爬取 6 楼 biaowen 2009-11-24 有点膨胀。 7 楼 comsci 2009-11-25 javaeyes 写道nutch不算复杂的。comsci nutch在hadoop上运行，只要hadoop分布式部署了，nutch就可以分布式爬取

单机运行NUTCH和多机并行运行NUTCH，在搜索效率和存储空间上面有什么比较显著的区别吗？ 8 楼 comsci 2009-11-26 另外有个问题想了解下，如果一个小企业或者个人实验室(person lab)要搭建一个基于NUTCH的搜索引擎整列出来，对系统硬件要求是怎么样的？ 9 楼 diddyrock 2009-11-26 复杂太多了，有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了，实在是太复杂了，好在plugin写起来不是很困难，但是想要高效还是有点复杂。nutch对于硬件没有太多要求，一台个人pc就可以了，硬盘最好企业级。关键是网络的稳定，而且nutch有内存泄漏的bug，建议你等下一个稳定版本，或者直接trunk。 10 楼 comsci 2009-11-27 diddyrock 写道复杂太多了，有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了，实在是太复杂了，好在plugin写起来不是很困难，但是想要高效还是有点复杂。nutch对于硬件没有太多要求，一台个人pc就可以了，硬盘最好企业级。关键是网络的稳定，而且nutch有内存泄漏的bug，建议你等下一个稳定版本，或者直接trunk。
如果我们想抓取的网站仅仅限于有限多个网站的内容，而不像GOOGLE那样是全网抓取，那么有可能对存储的要求比较低，事实上我们也仅仅只需要这样的搜索引擎 11 楼 p_x1984 2009-11-27 在nutch中如何配置多个url，知道的麻烦说下。
抓取什么内容，主要看业务的方向。大部分的貌似都是网页中的部分内容。 12 楼 comsci 2009-12-26 同楼上，比如说我只想抓取40个网站的内容，这些URL是如何配置到NUTCH中去的呢？ 13 楼 p_x1984 2009-12-26 这个问题我已经弄明白了，同样的不管有多少的url，都写在url.txt中就行，nutch 在启动的时候自然的就会找到url.txt中这些url了。 14 楼 comsci 2009-12-27 p_x1984 写道这个问题我已经弄明白了，同样的不管有多少的url，都写在url.txt中就行，nutch 在启动的时候自然的就会找到url.txt中这些url了。
还有个问题，如果要抓取多个URL的话，NUTCH的工作线程是怎么安排的呢？ 15 楼 p_x1984 2009-12-27 你看nutch的源码了？在fetch.java类中有说明，具体的我还得看下源码。 16 楼 comsci 2009-12-29 另外，你们用的是什么版本的呢？听说好像最新的版本不如老版本的好呢？ 17 楼 p_x1984 2009-12-29 现在比较稳定还是nutch-1.0吧！

nutch的根本工作流程理解

热点推荐