基于PaddleOCR的PDF转WORD

PP-Structure是PaddleOCR团队自研的智能文档分析系统，旨在帮助开发者更好的完成版面分析、表格识别等文档理解相关任务。

PP-Structurev2的主要特性如下：

支持对图片/pdf形式的文档进行版面分析，可以划分文字、标题、表格、图片、公式等区域；
支持通用的中英文表格检测任务；
支持表格区域进行结构化识别，最终结果输出Excel文件；
支持基于多模态的关键信息抽取(Key Information Extraction，KIE)任务-语义实体识别(Semantic Entity Recognition，SER)和关系抽取(Relation Extraction，RE)；
支持版面复原，即恢复为与原始图像布局一致的word或者pdf格式的文件；
支持自定义训练及python whl包调用等多种推理部署方式，简单易用；
与半自动数据标注工具PPOCRLabel打通，支持版面分析、表格识别、SER三种任务的标注。

安装下载工具

下载或更新最新的 GEFORCE EXPERIENCE
桌面右键打开英伟达控制面板，点击帮助->系统信息->组件->NVCUDA.DLL 获取cuda版本
下面的步骤可能不需要，因为conda可以自动安装，只是记录一下
查看cuda版本：nvcc –version
CUDA Toolkit，cuda安装时取消除cuda外的其他选项，并检查环境变量Path里是否有相应的路径
NVIDIA Developer Program，下载cuDNN，解压cuDNN压缩包，可以看到bin、include、lib目录，将其拖拽到cuda目录下的相应版本的根目录，覆盖相应的bin、include、lib目录
cd $env:CUDA_PATH\extras\demo_suite 执行 .\bandwidthTest.exe

conda create -n PP -c conda-forge python=3.8
conda activate PP
conda info –env
（二选一 GPU）conda install paddlepaddle-gpu==2.4.2 cudatoolkit=11.6 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge
（二选一 CPU）python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
使用 python 进入 python 解释器，输入import paddle ，再输入paddle.utils.run_check()
python -m pip install “paddleocr>=2.6” -i https://mirror.baidu.com/pypi/simple
Invoke-WebRequest -Uri “https://ghproxy.com/https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.6/ppstructure/recovery/requirements.txt“ -OutFile “requirements.txt”
python -m pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple
python -m pip install “PyMuPDF==1.18.7” -i https://mirror.baidu.com/pypi/simple （解决Issue#877）

开源

基于PaddleOCR的PDF转WORD

https://occdn.limour.top/2685.html

Author

Limour

Posted on

April 11, 2023

Licensed under