读书人

c++ 怎么读取网页内容

发布时间: 2012-03-02 14:40:29 作者: rapoo

c++ 如何读取网页内容?
刚学,谢多多指教
例如想获取百度首页所有显示出来的文字,而不是源代码标签等。谢谢大家
我是用 Dev-c++ 的

[解决办法]
学一下http协议的封装形式和相关命令就行了
[解决办法]
flex & yacc
[解决办法]
楼主如果你能获取网页源代码的话,那么你可以用正则表达式来去除标签
网上能找到 搜 "正则表达式 去HTML标签 "
C++的正则表达式库可以参见pcre库 boost中也有关于正则的库。

如果你获取网页源代码尚有困难的话,可以学习socket的编程和HTTP协议
如果不想那么麻烦的话,用curl库也可以帮你完成获取网页源代码的工作
甚至你直接用curl或者wget的命令行也未尝不可。

读书人网 >C++

热点推荐