读书人

将网页转换成纯TXT,该怎么解决

发布时间: 2012-05-24 11:55:41 作者: rapoo

将网页转换成纯TXT
怎么样将一个HTML的简单网页内的标记过滤掉,保存为纯TXT文件(效果就好像是在网页上选择了一块文字区域,然后粘贴到文本文档里面一样).
最好哪位朋友可以提供出具体的实现,或者相关代码(限C++).
如果没有,也可以大家集思广益,一起说说实现的思路~ :)

我下面附上一个类似的简单网页.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.6001.18148" name=GENERATOR></HEAD>
<BODY><PRE># 某银行系统历史交易

#

# 账 号: [XXXXXXXXXXXXXXX 招商银行]

# 起始日期: [20070104] 终止日期: [20080103]

# ---------------------------------

# 帐号 日期 币种 支出 存入 余额

说明

# ---------------------------------

622588010515236811; 20070104; 人民币; ; 3400.00;

3879.59; ATM存款;
# ---------------------------------

# 支出合计: 78 笔,共 145,394.00 元

# 存入合计: 27 笔,共 178,493.09 元

# ---------------------------------

# 导出时间:[2008-01-03 08:59:25] 用户:某某

# 如果您有什么建议或者疑问,欢迎您来信!

</PRE></BODY></HTML>


[解决办法]
每次用strtok查找符号<,找到匹配之后,再查找符号>,
中间的字符都不要,在这2个符号之外的都是网页的内容。
[解决办法]
针对特定样式的网页还可以,任意网页比较难。主要是考虑各种标记和关键词,情况很多。
xml的出现好像是为了解决电脑难处理的问题。
[解决办法]
如果是位置固定的几个标签可以考虑用dom、sax 等把html当作xml来处理。
[解决办法]
有意思,关注中~
[解决办法]
找个html解析库,把内容都拿出来啊
html解析参考
1、boost spirit,有例子已经做好的如何解析html;
2、mshtml parsing;
3、http://tidy.sourceforge.net/

[解决办法]
有现成的html2text,为什么要自己写。

[解决办法]
关注中

读书人网 >C++

热点推荐