把web网页中的数据封存下来之后，怎样快速处理

把web网页中的数据保存下来之后，怎样快速处理
比如，我定期半天把联想的item信息下载下来

具体的web网页在这里：
http://outlet.lenovo.com/SEUILibrary/controller/e/outlet_us/LenovoPortal/en_US/catalog.workflow:item.detail?GroupID=445&Code=1024XD3

我要用什么做一个像搜索引擎那样的索引，然后保存在内存中，当用户检测的时候，能快速获取到信息呢？

用什么方式来处理比较方便？

数据量貌似有几万个到几十万，因为不止联想的还是华硕的、apple这些其他的。

求帮助！

Web 行业数据搜索引擎联想 Apple
[解决办法]
用数据库，比如MySQL。
[解决办法]
用分词程序统计网页里面每个单词出现的次数，然后为每一个常用词建立一个按出现次数排序的表，以此作为关键字查询的排名，最终排名还需要参照其它因素
[解决办法]

引用:

Quote: 引用:

用分词程序统计网页里面每个单词出现的次数，然后为每一个常用词建立一个按出现次数排序的表，以此作为关键字查询的排名，最终排名还需要参照其它因素

哇，有没有什么开源的工具可以做这个工作的？

英文的分词很简单撒, 用空格, 符号之类的隔开的就是一个单词.
中文分词网上找得到代码和词库的.
[解决办法]
内存数据库, fastdb/sqlite等

把web网页中的数据封存下来之后怎样

热点推荐