读书人

一个简略的单线程爬行网站目录的脚本!

发布时间: 2012-12-28 10:29:05 作者: rapoo

一个简单的单线程爬行网站目录的脚本!Py达人看过来吧!!
以下是一个简单的python 爬行网站目录的脚本。
目的:
1、爬行某个网站存在特定的目录,目录字典。
2、如果存在某个目录,如/admin/ 就返回成功。

不足之处:
1、是个单线程,不实用
2、一次爬行多个url,需要把被爬行的url 做为字列表来处理。

Q&A:
希望py达人们,多指出不足之处,多提一些好的建议,完善下这个脚本,非常感谢!

if __name__=='__main__':

import sys,httplib2,time

print 'usage:'+sys.argv[0]+' site urlfile\n'
fo = open(sys.argv[2])

try:
urls = fo.readline()
print 'Load urls Sucessfully...\n'
finally:
fo.close()
time.sleep(10)
print 'Connecting to ',sys.argv[1]

domain=sys.argv[1]
h=httplib2.Http('.cache')
for url in urls:
(resp_headers, content) = h.request('http://'+domain+'/'+url.strip(), "GET")

[解决办法]
可以对比一下商业级的爬虫代码
[解决办法]
说实话,没看懂你写的啥意思,呵呵。

简单的python抓取网页和模拟登陆,可参考:
【教程】抓取网并提取网页中所需要的信息 之 Python版

【教程】模拟登陆网站 之 Python版(内含两种版本的完整的可运行的代码)

专业的爬虫,可参考:
【记录】折腾Scrapy的Tutorial
[解决办法]
Scrapy就可以了, 不需要造轮子.

读书人网 >perl python

热点推荐