读书人

采集有关问题。琢磨了半天无从下手

发布时间: 2012-06-15 19:37:05 作者: rapoo

采集问题。。。琢磨了半天,无从下手。
这是在某个网页用正则抓取到的内容:

<a href='13174.htm' target=_blank>001</a><a href='13175.htm' target=_blank>002</a><a href='11633.htm' target=_blank>0215</a><a href='11664.htm' target=_blank>0215F</a>

这只抓取到的内容,然后用正则:

C# code
Regex.Match(Str, "<a href='(?<x2>.*?)' target=_blank>(?<x>.*?)</a>", options).Groups["x"].Value;


只默认取到第一个<a > </a>之间的内容,后面的无法写入数据库,该咋整来着了? 现在?

[解决办法]
搜一下 HtmlAgilityPack 超强大的C#分析HTML利器 用正则很复杂的东西用了这个之后轻松不少!!

读书人网 >asp.net

热点推荐