将网页转换成纯TXT,该怎么解决

将网页转换成纯TXT
怎么样将一个HTML的简单网页内的标记过滤掉,保存为纯TXT文件(效果就好像是在网页上选择了一块文字区域,然后粘贴到文本文档里面一样).
最好哪位朋友可以提供出具体的实现,或者相关代码(限C++).
如果没有,也可以大家集思广益,一起说说实现的思路~ :)

我下面附上一个类似的简单网页.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.6001.18148" name=GENERATOR></HEAD>
<BODY><PRE># 某银行系统历史交易

#

# 账号: [XXXXXXXXXXXXXXX 招商银行]

# 起始日期: [20070104] 终止日期: [20080103]

# ---------------------------------

# 帐号日期币种支出存入余额

说明

# ---------------------------------

622588010515236811; 20070104; 人民币; ; 3400.00;

3879.59; ATM存款;
# ---------------------------------

# 支出合计： 78 笔，共 145,394.00 元

# 存入合计： 27 笔，共 178,493.09 元

# ---------------------------------

# 导出时间：[2008-01-03 08:59:25] 用户:某某

# 如果您有什么建议或者疑问，欢迎您来信!

</PRE></BODY></HTML>

[解决办法]
每次用strtok查找符号<,找到匹配之后，再查找符号>,
中间的字符都不要，在这2个符号之外的都是网页的内容。
[解决办法]
针对特定样式的网页还可以，任意网页比较难。主要是考虑各种标记和关键词，情况很多。
xml的出现好像是为了解决电脑难处理的问题。
[解决办法]
如果是位置固定的几个标签可以考虑用dom、sax 等把html当作xml来处理。
[解决办法]
有意思，关注中~
[解决办法]
找个html解析库，把内容都拿出来啊
html解析参考
1、boost spirit，有例子已经做好的如何解析html；
2、mshtml parsing；
3、http://tidy.sourceforge.net/

[解决办法]
有现成的html2text，为什么要自己写。

[解决办法]
关注中

将网页转换成纯TXT,该怎么解决

热点推荐