读书人

Python中网络抓取跟分析

发布时间: 2012-08-07 14:54:49 作者: rapoo

Python中网络抓取和分析

1.前言

Python的网络抓取有很多包可以实现,比如:urllib、urllib2、httplib、httplib2。其中httplib、httplib2是专门处理与http相关的;而urllib、urllib2是借助于httplib、httplib2实现的,相当于在httplib、httplib2上又封装了一层来进行处理web数据。而urllib2是urllib的高版本,httplib2是httplib的高版本。

这里我给出一个学习python库的网址,里面有各种lib库的讲解:http://docs.python.org/library/index.html 。有兴趣的读者可以联系一下。

由于最近在使用httplib2进行网上抓取数据,所以下面对httplib2进行介绍。

2.httplib2

(1)安装

httplib2的安装:首先下载python的httplib2的安装包,下载地址为:http://code.google.com/p/httplib2/downloads/list;其次, 在dos窗口下进入httplib2的解压目录,执行命令:python setup.py install 。 即完成安装。

(2)使用讲解

下面再给出一个httplib2的学习地址,是httplib2的一个wiki,里面有几个httplib2的简单例子:http://code.google.com/p/httplib2/wiki/Examples 。

3.HTMLParser

该模块是用来解析HTML元素的。可以从HTML中筛选出指定的标签。下面给出一个例子,读取百度首页www.baidu.com中的所有链接,并打印出来。





读书人网 >perl python

热点推荐