读书人

词库的扩张-百度百科的抓取-你知道这些

发布时间: 2012-08-16 12:02:16 作者: rapoo

词库的扩充-百度百科的抓取-你知道这些热词吗?

????? 做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。

?

???? 抓取用 httpclient 应该就够了

<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.1</version></dependency>

??? 解析用htmlclener 就够了

<dependency><groupId>net.sourceforge.htmlcleaner</groupId><artifactId>htmlcleaner</artifactId><version>2.2</version></dependency>

???

??? 这两个都比较简单,自己看例子基本就够了,本文不对程序进行说明。

?

??? 如果通过百科的开放分类浏览?进行抓取,估计抓取不了多少词条,因为它一个分类下最多显示70页,每页10条,那么每个分类下就是最多700个,并且这中间还有好多词条存在着一个词条多个分类。 这样也就抓取20w左右。也可以通过网上搜集一个词库,判断是否在百科中存在,存在的话,然后标识为百科存在的词条。

?? 有了初始的百科存在的词库后,可以抓取如 “杨幂” http://baike.baidu.com/view/3871.htm? 词条内容中的链接,来发现新的词条,这样逐步递归抓取,估计就能抓取100w左右的词条。

?

?? 对这100w词条的质量评价,可以采用其中的浏览次数来进行评价,相对来说,浏览次数越高的词条,质量会越高些。

?? 如“杨幂”抓取http://baike.baidu.com/api/lemmacnt/3871

?

看看浏览次数超过1000万的词条,看看你知道多少呢? 看看大家都浏览啥了呢 :)

?

词条  |  浏览次数 百度百科 | 67496706人 体 艺 术 | 37800763杨幂 | 25817907刘诗诗 | 19689914名侦探柯南 | 17797786苍 井 空 | 17193210火影忍者 | 16955751宫锁心玉 | 16049276武艺 | 15985239海贼王 | 15228379世界杯 | 15200958美人心计 | 14922687LadyGaGa | 14325821做 爱 | 13567149刘德华 | 13411785张翰 | 13384729黄 色 网 站 | 13198032死神 | 12910455周杰伦 | 12855770郑爽 | 12613402许嵩 | 12187258少女时代 | 115112184月16日 | 11253472性 交 | 11138734回家的诱惑 | 10887614黎姿 | 10795131暮光之城 | 10696633张杰 | 10652092刘亦菲 | 10536571守护甜心 | 10433227胡歌 | 10397058李小龙 | 10296313淘宝网 | 10275490毛 泽 东 | 102377302ne1 | 10186473步步惊心 | 10076771

??

??

?

??

?

读书人网 >行业软件

热点推荐