本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法。在全文检索部分,结合Lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的最 新应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。此外还进一步介绍了实现准实时搜索的方法,展示了Solr的用法以及实现分布式搜索服务集群的方法。最 后介绍了在地理信息系统领域和户外活动搜索领域的应用。
海报:

网友对解密搜索引擎技术实战:Lucene&Java精华版(第3版)的评论
这是我在亚马逊买书以来评价的第一本书,因为实在太无语了。作者的讲解模式十分奇怪,仿佛他默认读者已经对lucene很熟悉了。一上来就讲源码,讲lucene中文分词的原理。我是之前有学过一点lucene,看到一点源码,所以知道他在说什么。但是如果是一个初学者,连lucene的API都没接触过,结果作者一上来连个HelloWorld都没有,直接讲源码,读者连lucene的API都不熟悉。。。我也是服了。。。还有,很多情况下,一些知识点的衔接很生硬,给人一种“不知道为什么,反正他突然就飙原理了”的感觉。。
反正,如果是想学lucene,这书不推荐。如果是想了解搜索引擎的知识和一些算法、原理,可以看一下。
我觉得书名不如把第二行,lucene的那一行去掉更合适。。。无语了。
也是比较难的一本书,里面的代码很多,但大多数比较难懂,不适合Lucence入门
书本身质量还可以,附赠了光盘,但是没光驱读。。。
正在看的过程中,大概看了下爬虫,本身以Java为职业,所以还可以看得懂,不难。
学完再评论内容吧。
喜欢解密搜索引擎技术实战:Lucene&Java精华版(第3版)请与您的朋友分享,由于版权原因,读书人网不提供图书下载服务