Word/Excel/PDF文件转换成HTML整理
项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下:
一、使用Jacob转换Word,Excel为HTML
“JACOB一个Java-COM中间件.通过这个组件你可以在Java应用程序中调用COM组件和Win32 libraries。”
首先下载Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未测试),与先前的Jacob1.7差别不大
1、将压缩包解压后,Jacob.jar添加到Libraries中;
2、将Jacob.dll放至“WINDOWS\SYSTEM32”下面。
需要注意的是:
【使用IDE启动Web服务器时,系统读取不到Jacob.dll,例如用MyEclipse启动Tomcat,就需要将dll文件copy到MyEclipse安装目录的“jre\bin”下面。
一般系统没有加载到Jacob.dll文件时,报错信息为:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”】
新建类:
String cmd = "....";此处代码是调用创建的bat文件进行转换
8) 测试转换
@echo offset folderPath=%1set filePath=%2cd /d %folderPath%\convertPdfpdftohtml -enc GBK %filePath%exit34 楼 lanfanghe 2009-08-05 我直接在cmd中运行pdftohtml,都不通过,以下是我的执行过程
当我用pdftotext
E:\xpdf>pdftotext -f 1 -l 3 -layout -enc GBK 森林碳汇市场发展现状及前景展望.pdf ztest.txt
生成文件成功,未出现任何异常,txt内容正常
然而用pdftohtml
E:\xpdf>pdftohtml -f 1 -l 3 -c -enc GBK 森林碳汇市场发展现状及前景展望.pdf ztest.html
系统提示:pdftohtml.ext遇到问题需要关闭。我们对此引起的不便表示抱歉......
目录生成了文件如下:
ztest-1.html
ztest.html
ztest_ind.html
但是里面仅有一个大框,而且内容为空,而且这个文档有3页面,说明执行了一半就报错了,我更换了UTF-8也一样报错
这个文档的字体是:楷体_GB2312 宋体,
我又测试了一些其他的pdf,发现五个报错,而这五个都是这种字体!所以我怀疑pdftothml存在bug
其他字体,测试了大约20个左右,未发现问题。
35 楼 donglx2004 2009-08-12 请问楼主,excelToHtml转xls之后完全是乱码,不知道怎么解决