读书人

建立一个私有底据查询与分析系统的可行

发布时间: 2012-06-29 15:48:46 作者: rapoo

建立一个私有数据查询与分析系统的可行性
当我们的计算机中存储了大量的电子书和其它格式的文档资料之后,如何用最快的时间来查询这些电子书和资料里面的信息,并且让查询出来的信息对我们的分析和决策过程产生正面的影响,这里有一个思路,由于没有找到合适的批量图像文字识别软件,我暂时无法完成让上万本电子书变成可以被查询的文本数据库的工程,但是我相信,有朋友可以这样做,我就把思路说一下。。

1: 首先是收集网上的各种类型的电子书,并保存在硬盘中(并且要刻录成光盘进行备份)

2: 其次对这些电子书和各种文档进行整理,删除格式有问题,无法读取的

3: 然后使用一种叫ABBYY FineReader Pro的图像文字下载软件,把这些PDF电子书转换为
DOC格式或者TXT格式的文档(这套软件只有正版,但是没有找到卖的)

4: 对这些已经转化好格式的DOC文档或者TXT文档建立多级目录

5: 使用lucene2.4版本的开源软件对这些文件夹下面的电子书建立索引

6: 使用lucene2.4的开源代码对这些索引进行查询,并结合广域网搜索引擎,组合成一套
基于开源软件的文档存储和查询系统


如果完成了这一步的工程,下一步就可以应用多种分析工具,建立一套自动化的知识库系统
相信完成这一步之后,我们会有比较大的收获!



读书人网 >开源软件

热点推荐