为啥抓取HTML代码抓出来的源码少了很多双引号啊

为什么抓取HTML代码抓出来的源码少了很多双引号啊？
本帖最后由 hslx_ 于 2013-03-07 14:04:55 编辑我这边想个小软件，抓取网页中的内容。
其中我的网页中有个下拉列表框，我想将下拉列表框中的内容通过软件读取出来，再转到ListView上。
我的列表框HTML代码如下：

&lt;select&gt;
&lt;option selected="selected" value=""&gt;请选择&lt;/option&gt;
&lt;option value="1111"&gt;aaaa&lt;/option&gt;
&lt;option value="2222"&gt;bbbb&lt;/option&gt;
&lt;option value="3333"&gt;cccc&lt;/option&gt;
&lt;option value="4444"&gt;dddd&lt;/option&gt;
&lt;option value="5555"&gt;eeee&lt;/option&gt;
&lt;option value="6666"&gt;ffff&lt;/option&gt;
&lt;option value="7777"&gt;gggg&lt;/option&gt;
&lt;option value="8888"&gt;hhhh&lt;/option&gt;
&lt;option value="9999"&gt;jjjj&lt;/option&gt;
&lt;/select&gt;

但是我通过软件抓取出来的内容却和源文件不一致是怎么回事啊？
抓取出来的HTML代码里的value后面的双引号都没有了。
我的代码部分：


        IHTMLDocument2   *document;
        IHTMLElement   *body;
        BSTR   title,source,content;
        HRESULT hr;
        hr = CppWebBrowser1-&gt;Document-&gt;QueryInterface(IID_IHTMLDocument2, (void**)&document);
 if (hr == S_OK)
             {
                  hr = document-&gt;get_body(&body);
                  if(hr == S_OK)
                  {
                        body-&gt;get_outerHTML(&content);

                        AnsiString Str1= AnsiString(content);
                        AnsiString selectpart= "&lt;?xml version='1.0' encoding='GBK'?&gt; "+ Str1.SubString(Str1.Pos("&lt;SELECT&gt;"),Str1.Pos("&lt;/SELECT&gt;")-Str1.Pos("&lt;SELECT&gt;")+8);
                        Memo1-&gt;Text=Str1;
                  }
             }

html C++ 抓取
[解决办法]
这个，建议lz用clever suit组建吧

很easy

很高效。
[解决办法]
这段代码加XML头没问题
[解决办法]
html怎么样写的，抓下来就是什么样，你要看浏览器-右键查看源代码里的html样子，抓的是这个代码

为啥抓取HTML代码抓出来的源码少了很多

热点推荐