Perl 处置 html文件

Perl 处理 html文件
用perl 读取一个url地址，并获取html代码。
返回的代码格式大致如下。

HTML code

&lt;html&gt;    &lt;body&gt;    &lt;table&gt;&lt;/table&gt;    &lt;table&gt;        &lt;tr&gt;            &lt;td&gt;                &lt;table class="pane"&gt;                    &lt;tr class="pane"&gt;                        &lt;td colspan="2"&gt;&lt;/td&gt;                    &lt;/tr&gt;                    &lt;tr&gt;                        &lt;td&gt;&lt;/td&gt;                        &lt;td&gt;my content1&lt;/td&gt;                    &lt;/tr&gt;                    &lt;tr class="pane"&gt;                        &lt;td colspan="2"&gt;&lt;/td&gt;                    &lt;/tr&gt;                    &lt;tr&gt;                        &lt;td&gt;&lt;/td&gt;                        &lt;td&gt;my content2&lt;/td&gt;                    &lt;/tr&gt;                &lt;/table&gt;            &lt;/td&gt;        &lt;/tr&gt;    &lt;/table&gt;&lt;/body&gt;&lt;/html&gt;

想取到这里边的值，各位高手帮忙看下如何实现。
就是取my content1,my content2.

逻辑：取class = pane的table，在此table中排出class=pane 的tr，对其他的tr取第二个td的值。

HTML code

&lt;table class="pane"&gt; &lt;tr&gt;    &lt;td&gt;&lt;/td&gt;    &lt;td&gt;my content1&lt;/td&gt;  &lt;/tr&gt;&lt;/table&gt;

本人没接触过perl，不会写，要改别人的东西，没办法啊。各位兄弟帮下忙了，多谢啦。

[解决办法]

Perl code

use HTML::Element;use HTML::TreeBuilder;$tree = new HTML::TreeBuilder;$tree-&gt;parse_file('C:\Users\xxxx\Desktop\CVE\Tool\perl\mergehtml\xxx\1.html');#html file pathforeach my $table ( $tree-&gt;find_by_attribute('class','pane') ){        foreach my $td ( $table-&gt;find_by_tag_name('td') )    {        if($td-&gt;as_text()=~/my/)#这里的正则式自己改下        {            print $td-&gt;as_text()."\n";            }        }}

Perl 处置 html文件

热点推荐