采集网页问题,如何提取不同来源正文页中的正文部分?恳请各位高手提供方法或思路
在采集不同网页内容时,我遇到个很难解决的问题,就是如何正确的、完整的提取网页中的正文部分,而把其他的内容去除;注意不是针对某个网站,而是针对所有的 网站。感谢各位高手赐教,如果有好的方法,还可以另行加分!
[解决办法]
模式识别也要有模式才行,没有模式想要识别是不可能的。
[解决办法]
[解决办法]
http://zhidao.baidu.com/question/39002023.html
其实主要还是 多多试试、多多思考
[解决办法]