读书人

python提取pdf与word中的相干信息

发布时间: 2013-05-02 09:39:29 作者: rapoo

python提取pdf与word中的相关信息
对于正式发表的电子版pdf和word论文,需要用python脚本从文件的文本中提取其中的标题、作者、摘要、keyword信息,不考虑图片形式的pdf,数据量不大,效率重要度不大,已了解pypdf和pdfminer,不知如何实现,大家能否给个思路,谢谢!

[解决办法]
pdf:看pypdf和pdfminer的开发文档
word:使用其COM接口
[解决办法]
work可使用win32com吧

读书人网 >perl python

热点推荐