读书人

把web网页中的数据封存下来之后怎样

发布时间: 2013-07-08 14:13:00 作者: rapoo

把web网页中的数据保存下来之后,怎样快速处理
比如,我定期半天把联想的item信息下载下来

具体的web网页在这里:
http://outlet.lenovo.com/SEUILibrary/controller/e/outlet_us/LenovoPortal/en_US/catalog.workflow:item.detail?GroupID=445&Code=1024XD3


我要用什么做一个像搜索引擎那样的索引,然后保存在内存中,当用户检测的时候,能快速获取到信息呢?


用什么方式来处理比较方便?


数据量貌似有几万个到几十万,因为不止联想的还是华硕的、apple这些其他的。


求帮助!

Web 行业数据 搜索引擎 联想 Apple
[解决办法]
用数据库,比如MySQL。
[解决办法]
用分词 程序统计网页里面每个单词出现的次数,然后为每一个常用词建立一个按出现次数排序的表,以此作为关键字查询的排名,最终排名还需要参照其它因素
[解决办法]

引用:
Quote: 引用:

用分词 程序统计网页里面每个单词出现的次数,然后为每一个常用词建立一个按出现次数排序的表,以此作为关键字查询的排名,最终排名还需要参照其它因素

哇,有没有什么开源的工具可以做这个工作的?


英文的分词很简单撒, 用空格, 符号之类的隔开的就是一个单词.
中文分词网上找得到代码和词库的.
[解决办法]
内存数据库, fastdb/sqlite等

读书人网 >C++

热点推荐