python脚本pdf批量转换为word格式

  • A+
所属分类:python基础入门

用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式。

转载源码:

  1. # -*- coding: utf-8 -*-
  2. from pdfminer.pdfparser import PDFParser, PDFDocument
  3. from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
  4. from pdfminer.layout import LAParams
  5. from pdfminer.converter import PDFPageAggregator
  6. from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
  7. from docx import Document
  8. document = Document()
  9. import warnings
  10. warnings.filterwarnings("ignore")
  11. import os
  12. # 添加你要转换的文件地址
  13. file_name = os.open(r'C:\XXX\xxx.pdf', os.O_RDWR)
  14. def main():
  15.     fn = open(file_name, 'rb')
  16.     parser = PDFParser(fn)
  17.     doc = PDFDocument()
  18.     parser.set_document(doc)
  19.     doc.set_parser(parser)
  20.     resource = PDFResourceManager()
  21.     laparams = LAParams()
  22.     device = PDFPageAggregator(resource, laparams=laparams)
  23.     interpreter = PDFPageInterpreter(resource, device)
  24.     for i in doc.get_pages():
  25.         interpreter.process_page(i)
  26.         layout = device.get_result()
  27.         for out in layout:
  28.             if hasattr(out, "get_text"):
  29.                 content = out.get_text().replace(u'\xa0', u' ')
  30.                 document.add_paragraph(
  31.                     content, style='ListBullet'
  32.                 )
  33.             document.save('a1' + '.docx')
  34.     print('处理完成')
  35. if __name__ == '__main__':
  36.     main()
weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: