python脚本pdf批量转换为word格式

  • A+
所属分类:python基础入门

用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式。

转载源码:

  1. #?-*-?coding:?utf-8?-*-
  2. from?pdfminer.pdfparser?import?PDFParser,?PDFDocument
  3. from?pdfminer.pdfinterp?import?PDFResourceManager,?PDFPageInterpreter
  4. from?pdfminer.layout?import?LAParams
  5. from?pdfminer.converter?import?PDFPageAggregator
  6. from?pdfminer.pdfinterp?import?PDFTextExtractionNotAllowed
  7. from?docx?import?Document
  8. document?=?Document()
  9. import?warnings
  10. warnings.filterwarnings("ignore")
  11. import?os
  12. #?添加你要转换的文件地址
  13. file_name?=?os.open(r'C:\XXX\xxx.pdf',?os.O_RDWR)
  14. def?main():
  15. ????fn?=?open(file_name,?'rb')
  16. ????parser?=?PDFParser(fn)
  17. ????doc?=?PDFDocument()
  18. ????parser.set_document(doc)
  19. ????doc.set_parser(parser)
  20. ????resource?=?PDFResourceManager()
  21. ????laparams?=?LAParams()
  22. ????device?=?PDFPageAggregator(resource,?laparams=laparams)
  23. ????interpreter?=?PDFPageInterpreter(resource,?device)
  24. ????for?i?in?doc.get_pages():
  25. ????????interpreter.process_page(i)
  26. ????????layout?=?device.get_result()
  27. ????????for?out?in?layout:
  28. ????????????if?hasattr(out,?"get_text"):
  29. ????????????????content?=?out.get_text().replace(u'\xa0',?u'?')
  30. ????????????????document.add_paragraph(
  31. ????????????????????content,?style='ListBullet'
  32. ????????????????)
  33. ????????????document.save('a1'?+?'.docx')
  34. ????print('处理完成')
  35. if?__name__?==?'__main__':
  36. ????main()
  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: