读书人

为啥抓取HTML代码抓出来的源码少了很多

发布时间: 2013-03-17 13:48:31 作者: rapoo

为什么抓取HTML代码抓出来的源码少了很多双引号啊?
本帖最后由 hslx_ 于 2013-03-07 14:04:55 编辑 我这边想个小软件,抓取网页中的内容。
其中我的网页中有个下拉列表框,我想将下拉列表框中的内容通过软件读取出来,再转到ListView上。
我的列表框HTML代码如下:

<select>
<option selected="selected" value="">请选择</option>
<option value="1111">aaaa</option>
<option value="2222">bbbb</option>
<option value="3333">cccc</option>
<option value="4444">dddd</option>
<option value="5555">eeee</option>
<option value="6666">ffff</option>
<option value="7777">gggg</option>
<option value="8888">hhhh</option>
<option value="9999">jjjj</option>
</select>


但是我通过软件抓取出来的内容却和源文件不一致是怎么回事啊?
抓取出来的HTML代码里的value后面的双引号都没有了。
我的代码部分:

IHTMLDocument2 *document;
IHTMLElement *body;
BSTR title,source,content;
HRESULT hr;
hr = CppWebBrowser1->Document->QueryInterface(IID_IHTMLDocument2, (void**)&document);
if (hr == S_OK)
{
hr = document->get_body(&body);
if(hr == S_OK)
{
body->get_outerHTML(&content);

AnsiString Str1= AnsiString(content);
AnsiString selectpart= "<?xml version='1.0' encoding='GBK'?> "+ Str1.SubString(Str1.Pos("<SELECT>"),Str1.Pos("</SELECT>")-Str1.Pos("<SELECT>")+8);
Memo1->Text=Str1;
}
}
html C++ 抓取
[解决办法]
这个,建议lz用clever suit组建吧

很easy

很高效。
[解决办法]
这段代码加XML头没问题
[解决办法]
html怎么样写的,抓下来就是什么样,你要看浏览器-右键 查看源代码 里的html样子,抓的是这个代码

读书人网 >C++ Builder

热点推荐