读书人

求一段正则表达式从html页面里取解决

发布时间: 2012-02-03 22:02:47 作者: rapoo

求一段正则表达式,从html页面里取
下面是一段html的片断,我想从这里面分别取出:
标准号,标准名称,标准行业类别字段项,以及字段项对应的值.
我是新手,不知道从哪里下手.

<TR>
<TD class=font01 width=96> 标准号 </TD>
<TD width=393> CB/T 290-1995  </TD> </TR>
<TR>
<TD class=font01 width=96> 标准名称(中文) </TD>
<TD width=393> 导链滚轮  </TD> </TR>
<TR>
<TD class=font01 width=96> 标准行业类别 </TD>
<TD width=393> CB  </TD> </TR>
<TR>
<TD class=font01 width=96> 中标分类号 </TD>
<TD width=393> U21  </TD> </TR>
<TR>
<TD class=font01 width=96> 发布日期 </TD>
<TD width=393> 1995  </TD> </TR>
<TR>
<TD class=font01 width=96> 实施日期 </TD>
<TD width=393>   </TD> </TR>
<TR>
<TD class=font01 width=96> 替代标准 </TD>
<TD width=393> CB 290-84  </TD> </TR>
<TR>
<TD class=font01 width=96> 是否作废 </TD>
<TD width=393> 有效 </TD> </TR>
<TR>
<TD class=font01 width=96> 作废日期 </TD>
<TD width=393>   </TD> </TR>
<TR>
<TD class=font01 width=96> 页  数 </TD>
<TD width=393> 10  </TD> </TR>
<TR>
<TD class=font01 width=96> 馆藏标志 </TD>
<TD class=font01 width=393> 无   </TD> </TR>
<TR>
<TD class=font01 width=96>   </TD>
<TD width=393>   </TD> </TR>
<TR>
<TD class=font01 width=96> 标准名称(英文) </TD>
<TD width=393>   </TD> </TR>
<TR>
<TD class=font01 width=96> ICS分类号 </TD>
<TD width=393> 47.020.50  </TD> </TR>
<TR>
<TD class=font01 width=96> 采用标准 </TD>
<TD width=393>   </TD> </TR>

[解决办法]
(标准号|标准名称|标准行业类别)[\S\s]+?(? <= <TD[^> ]+> )([\S\s]+?)(?= </TD> )
分别取$1和$2的值,即是你要的,已调试

读书人网 >perl python

热点推荐