读书人

关于C#正则采集网站内容的有关问题

发布时间: 2014-01-03 14:10:51 作者: rapoo

关于C#正则采集网站内容的问题
例如:我想采集这个页面news.csdn.net 的文章列表的链接怎么弄?

这个是我网上百度了一下随便查查看试验了一下貌似不对

Regex regexCSDN = new Regex(@"<div class=""unit""><h1><a href=""(?<Content>\\w+) target=""_blank"" >");


应该是正则写的不对,求大神指点,正则就记得验证一些基本的数据而已。
[解决办法]
试试 可能你的正则里面没有匹配换行
(?i)<div[^>]*?class=(['""]?)unit\1[^>]*?>\s*?<h1>\s*?<a[^>]*?href=(['""]?)(?<Content>[^'""]*?)\2[^>]*?>

读书人网 >asp.net

热点推荐