POI读取Word文档总结
?? ?本文档为个人总结,不作为指导性教程,未提供解决方案.
1 要解决表格,宏,超链接,图片等显示或者乱码问题,不能用类似WordExtractor的包或者试图用一个函数导出文本,没有现成的解决方案,必须用poi包一个段落一个段落的解析并处理一些特殊的格式。
2 现在对带数字或者符号的”项目符号和编号“无法解析和显示,只能显示文本
3 无法显示修订内容,无法判断哪些的新增的修改,最严重的是无法去掉已经删除的文字
4 分页的时候无法拆分表格,理论上可以解决,但是太花时间,而且取决与你显示表格的技术
5 无法获取word的分页位置;无法处理目录,暂时来说我只是删除了目录。
//*********************************************************
?? ?腊月二十八,找到了判断记录痕迹的办法,判断分页位置应该也没有问题了,对于word2003来说POI应该算做的很细致了,不过缺少全面的例子。下面就是判断段落标志和编号了,PAP应该可以找到吧,注释太少了,不得不啃微软的说明书。
1 楼 qianjinfu 2011-07-17 你好:看到 POI 判断分页位置 这个功能,你是如何做到了
能否提供思路,和Sample代码,不胜感激 2 楼 shappy1978 2011-07-18 我并没有读取word原来的分页,而是自己根据字数分页 3 楼 qianjinfu 2011-07-18 谢谢回复:
POI读取Word时,判断分页位置 就是一悲剧,我只能用endOffset来判断
分页,相当不精确。
另外 int pageCount = doc.getSummaryInformation().getPageCount();
取得总页数,很多文档取出总是1的问题,当取不出来只能通过。
extractor.getFooterText().trim();解析它的FooterText来判断 4 楼 liudi 2011-08-30 请问怎么去除word上的修订啊 请不吝赐教!!! 5 楼 ldjjames 2012-08-23 求如何分页,这对我有点太难了。