Back to Paddleocr

前沿算法与模型

docs/version2.x/algorithm/overview.md

3.5.013.2 KB
Original Source

前沿算法与模型

本文给出了PaddleOCR已支持的OCR算法列表,以及每个算法在英文公开数据集上的模型和指标,主要用于算法简介和算法性能对比,更多包括中文在内的其他数据集上的模型请参考PP-OCRv3 系列模型下载

PaddleOCR将持续新增支持OCR领域前沿算法与模型,欢迎广大开发者合作共建,贡献更多算法。

新增算法可参考教程:使用PaddleOCR架构添加新算法

1. 两阶段算法

1.1 文本检测算法

已支持的文本检测算法列表(戳链接获取使用教程):

在ICDAR2015文本检测公开数据集上,算法效果如下:

模型骨干网络precisionrecallHmean下载链接
EASTResNet50_vd88.71%81.36%84.88%训练模型
EASTMobileNetV378.20%79.10%78.65%训练模型
DBResNet50_vd86.41%78.72%82.38%训练模型
DBMobileNetV377.29%73.08%75.12%训练模型
SASTResNet50_vd91.39%83.77%87.42%训练模型
PSEResNet50_vd85.81%79.53%82.55%训练模型
PSEMobileNetV382.20%70.48%75.89%训练模型
DB++ResNet5090.89%82.66%86.58%合成数据预训练模型/训练模型

在Total-text文本检测公开数据集上,算法效果如下:

模型骨干网络precisionrecallHmean下载链接
SASTResNet50_vd89.63%78.44%83.66%训练模型
CTResNet18_vd88.68%81.70%85.05%训练模型

在CTW1500文本检测公开数据集上,算法效果如下:

模型骨干网络precisionrecallHmean下载链接
FCEResNet50_dcn88.39%82.18%85.27%训练模型
DRRGResNet50_vd89.92%80.91%85.18%训练模型

说明: SAST模型训练额外加入了icdar2013、icdar2017、COCO-Text、ArT等公开数据集进行调优。PaddleOCR用到的经过整理格式的英文公开数据集下载:

1.2 文本识别算法

已支持的文本识别算法列表(戳链接获取使用教程):

参考DTRB (3)文字识别训练和评估流程,使用MJSynth和SynthText两个文字识别数据集训练,在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估,算法效果如下:

模型骨干网络Avg Accuracy模型存储命名下载链接
RosettaResnet34_vd79.11%rec_r34_vd_none_none_ctc训练模型
RosettaMobileNetV375.80%rec_mv3_none_none_ctc训练模型
CRNNResnet34_vd81.04%rec_r34_vd_none_bilstm_ctc训练模型
CRNNMobileNetV377.95%rec_mv3_none_bilstm_ctc训练模型
StarNetResnet34_vd82.85%rec_r34_vd_tps_bilstm_ctc训练模型
StarNetMobileNetV379.28%rec_mv3_tps_bilstm_ctc训练模型
RAREResnet34_vd83.98%rec_r34_vd_tps_bilstm_att训练模型
RAREMobileNetV381.76%rec_mv3_tps_bilstm_att训练模型
SRNResnet50_vd_fpn86.31%rec_r50fpn_vd_none_srn训练模型
NRTRNRTR_MTB84.21%rec_mtb_nrtr训练模型
SARResnet3187.20%rec_r31_sar训练模型
SEEDAster_Resnet85.35%rec_resnet_stn_bilstm_att训练模型
SVTRSVTR-Tiny89.25%rec_svtr_tiny_none_ctc_en训练模型
ViTSTRViTSTR79.82%rec_vitstr_none_ce训练模型
ABINetResnet4590.75%rec_r45_abinet训练模型
VisionLANResnet4590.30%rec_r45_visionlan训练模型
SPINResNet3290.00%rec_r32_gaspin_bilstm_att训练模型
RobustScannerResNet3187.77%rec_r31_robustscanner训练模型
RFLResNetRFL88.63%rec_resnet_rfl_att训练模型
ParseQVIT91.24%rec_vit_parseq_synth训练模型
CPPDSVTR-Base93.8%rec_svtrnet_cppd_base_en训练模型
SATRNShallowCNN88.05%rec_satrn训练模型

1.3 文本超分辨率算法

已支持的文本超分辨率算法列表(戳链接获取使用教程):

在TextZoom公开数据集上,算法效果如下:

模型骨干网络PSNR_AvgSSIM_Avg配置文件下载链接
Text Gestalttsrn19.280.6560configs/sr/sr_tsrn_transformer_strock.yml训练模型
Text Telescopetbsrn21.560.7411configs/sr/sr_telescope.yml训练模型

1.4 公式识别算法

已支持的公式识别算法列表(戳链接获取使用教程):

在CROHME手写公式数据集上,算法效果如下:

模型骨干网络配置文件ExpRate下载链接
CANDenseNetrec_d28_can.yml51.72%训练模型

2. 端到端算法

已支持的端到端OCR算法列表(戳链接获取使用教程):

3. 表格识别算法

已支持的表格识别算法列表(戳链接获取使用教程):

在PubTabNet表格识别公开数据集上,算法效果如下:

模型骨干网络配置文件acc下载链接
TableMasterTableResNetExtraconfigs/table/table_master.yml77.47%训练模型 / 推理模型

4. 关键信息抽取算法

已支持的关键信息抽取算法列表(戳链接获取使用教程):

在wildreceipt发票公开数据集上,算法复现效果如下:

模型骨干网络配置文件hmean下载链接
SDMGRVGG6configs/kie/sdmgr/kie_unet_sdmgr.yml86.70%训练模型

在XFUND_zh公开数据集上,算法效果如下:

模型骨干网络任务配置文件hmean下载链接
VI-LayoutXLMVI-LayoutXLM-baseSERser_vi_layoutxlm_xfund_zh_udml.yml93.19%训练模型
LayoutXLMLayoutXLM-baseSERser_layoutxlm_xfund_zh.yml90.38%训练模型
LayoutLMLayoutLM-baseSERser_layoutlm_xfund_zh.yml77.31%训练模型
LayoutLMv2LayoutLMv2-baseSERser_layoutlmv2_xfund_zh.yml85.44%训练模型
VI-LayoutXLMVI-LayoutXLM-baseREre_vi_layoutxlm_xfund_zh_udml.yml83.92%训练模型
LayoutXLMLayoutXLM-baseREre_layoutxlm_xfund_zh.yml74.83%训练模型
LayoutLMv2LayoutLMv2-baseREre_layoutlmv2_xfund_zh.yml67.77%训练模型