【提问】【急】python中web编程的第三方库(主要用于网络爬虫)
python中有没有这样的第三方库,就是比如一个html标签是这样的:<a href = "FileList.asp?FileCategory=游戏">
想要提取href内的链接,但是它是一个相对路径,我想要的是一个绝对路径,有没有这样的第三方库,能够帮你将相对路径转换为绝对路径呢。 网络爬虫 python 编程 库 web
[解决办法]
from urllib.parse import urljoin
newurl = urljoin(baseurl, href)
这个是py3的,如果用的是py2,你要查查py2手册,应该也有的,但模块应该不同,urllib.parse是py3统一后的模块
我记得这个函数有个小小问题,就是遇到带父级相对路径超出根路径会有点问题,要稍微留意处理一下
状况现在说不清,你遇到就知道了
[解决办法]
urlparse.urljoin(base, url[, allow_fragments])