请教一个搜索引擎开发的问题(里面包含了好几个问题)
本人刚刚接触搜索引擎,有以下一些问题,望高人指点:
1.想做一个基于移动终端搜索的平台,这和传统的搜索引擎是不是在后台没有区别,只是前台展示不一样?
2.搜索引擎包含spider,parser,indexer和query engine几部分,是这样吗?
3.从效率角度考虑,是不是基于c/c++开发的比java的快?
4.lucene是不包含spider的,但nutch包含,是一个完整的搜索引擎,可他们是基于java的,我看到有clucene(基于c++)和FirteX(基于c++),这两个是不是也不包含spider啊?还有那个lucene4c是不是搁浅啦?
5.我看到有larbin,openwebspider,他们是不是都是专门的spider,抓取的网页需要像lucene来索引?
6.最先考虑c/c++开发的前提下,大家使用什么开源产品?
7.最后,能否详细讲解一下搜索引擎的开发流程?
非常感谢每一个回帖的人
[解决办法]
你比我厉害,我把我知道的说一下:
1,是
2,是
3,是,大规模的搜索引擎全部是c开发的
4,lucene包含spider,而且还有C版,clucene
5,我不知道
6,clucene,或者自己慢慢写
7,不就先写spider,再写查询,再考虑分词,不断完善。
[解决办法]
[解决办法]
1.Yes
2.Yes
3.it depends,对spider,性能瓶颈经常出现在I/O这块,所以这块用java还是C问题不大。我用基于JAVA的nutch在一台1G内存的机器上,spider最高能达到70pages/s。索引和查询对CPU和内存要求高,所以基于C的实现会好一些。
4.并一定一味排斥Java,基于nutch也做出了很多成功的商业网站,比如krugle
5.Yes
6.不知道
最后要看你对搜索引擎的要求,数据量,访问量....