抓取搜索结果,网页源代码
想用软件抓取某搜索引擎的搜索结果,并把标题和链接分别记录到两个变量中。
比如搜“泰”,结果里有“泰高清DVD”“magnet:?xt=...”我想把名字个磁力链都保存下来,
是否可以通过获取网页源代码来实现
然后从源代码中找这两项
没有接触过源代码,求思路
[解决办法]
DOM 可以网上搜代码
[解决办法]
解析html
或者正则抓取
[解决办法]
用正则解析HTML抓取所需要的内容!!
不过要解决编码问题!!
[解决办法]
抓取结果到没啥问题
我就遇到谷歌搜索如果是发包过去的居然提示错误~必须用IE才能看到真实代码~
[解决办法]
正则表达式,我花了差不多2天时间,基础的基本上都可以提取出来
[解决办法]
获取html源代码,如果从谷歌或百度等搜索引擎获取的,获取的连接都是重定向的,需要用HttpWebRequest请求其网页真实的连接。然后正则解析html获取想要的内容