读书人

怎么用java读取word文档的内容

发布时间: 2012-10-26 10:30:59 作者: rapoo

如何用java读取word文档的内容
这几天一直都在做用java读取关于办公软件内容的事
很是让你麻烦
在网上找了好多 都不怎么好使
现在我将我自己考虑到的东东
和大家分享
package AttainContent;
/*****显示Word中的内容*******/
import java.io.FileInputStream;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class SeedWork {
public SeedWork() {}
public static void main(String args[]) throws Exception {
FileInputStream in = new FileInputStream( "d:\\aa.doc ");
WordExtractor extractor = new WordExtractor(in);
String str = extractor.getText();
System.out.println( "the result is: " + str);
}
}

我觉的还是用POI这个东西比较好 1 楼 tarenadjq 2009-03-01 自己先顶顶顶顶顶 2 楼 stevezheng 2009-03-01 POI不是最优的方案,POI处理Excel尚算可以,但是处理word有些力不从心,给你推荐两个:
1、jodconverter,使用open office将word文档处理成为odt或者html,然后解析;
2、Jacob,桥接word的com;

这两个方法我都用过,Jacob相对比较简单,需要懂一些vb,但是他不稳定,并且非但server上需要装MS office,而且挑版本,2003和2007总不对付,后来放弃了;jodconverter看似比较复杂,而且最终避免不了自己解析的痛苦,但是稳定,随心所欲。 3 楼 梦游的鱼 2009-03-16 那你有没有想过,如果word里面有图片呢。 4 楼 stevezheng 2009-04-24 对于图片和其他ole的东西(如visio的图),vb把它处理成ole,jacob就是vb,所以也是处理成ole,然后你把它保存为原来的格式就可以了。

jodconverter解决起来“纯洁”一些,把word文档直接变成html,然后去文件系统拿图片

读书人网 >软件架构设计

热点推荐