基于paddleocr的pdf转word.md 4.3 KB


title: 基于PaddleOCR的PDF转WORD tags: [] id: '2188' categories:

  • - uncategorized date: 2023-04-11 13:57:30 ---

PP-Structure是PaddleOCR团队自研的智能文档分析系统,旨在帮助开发者更好的完成版面分析、表格识别等文档理解相关任务。

PP-Structurev2的主要特性如下:

  • 支持对图片/pdf形式的文档进行版面分析,可以划分文字、标题、表格、图片、公式等区域;
  • 支持通用的中英文表格检测任务;
  • 支持表格区域进行结构化识别,最终结果输出Excel文件
  • 支持基于多模态的关键信息抽取(Key Information Extraction,KIE)任务-语义实体识别(Semantic Entity Recognition,SER)和关系抽取(Relation Extraction,RE);
  • 支持版面复原,即恢复为与原始图像布局一致的word或者pdf格式的文件;
  • 支持自定义训练及python whl包调用等多种推理部署方式,简单易用;
  • 与半自动数据标注工具PPOCRLabel打通,支持版面分析、表格识别、SER三种任务的标注。

安装下载工具

安装conda

  • 下载miniconda:清华镜像
  • conda config --set show_channel_urls yes
  • notepad.exe $env:HOMEPATH.condarc 确保是 清华镜像

安装cuda

  • 下载或更新最新的 GEFORCE EXPERIENCE
  • 桌面右键打开英伟达控制面板,点击帮助->系统信息->组件->NVCUDA.DLL 获取cuda版本
  • 下面的步骤可能不需要,因为conda可以自动安装,只是记录一下
  • 查看cuda版本:nvcc --version
  • CUDA Toolkit,cuda安装时取消除cuda外的其他选项,并检查环境变量Path里是否有相应的路径
  • NVIDIA Developer Program,下载cuDNN,解压cuDNN压缩包,可以看到bin、include、lib目录,将其拖拽到cuda目录下的相应版本的根目录,覆盖相应的bin、include、lib目录
  • cd $env:CUDA_PATH\extras\demo_suite 执行 .\bandwidthTest.exe

安装PaddleOCR

PDF转WORD

  • 准备一份没有嵌字,纯扫描件的UnrealText.pdf
  • paddleocr --image_dir=UnrealText.pdf --type=structure --recovery=true
  • 效果比直接用Acrobat好一点
  • 如果是简短的一段文字,还是直接用Umi-OCR识别图片方便一点(基于PaddleOCR)
  • 等Microsoft 365 Copilot正式出来后,对paddleocr重建的docx进行智能纠错和格式美化应该效果会好一点。