PaddleOCR VL 1.6

1. PaddleOCR-VL-1.6 简介

PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 的基础上进一步优化，通过系统分析当前模型中的欠优化区域，进行针对性数据优化，并采用精细化的后训练策略，在文档解析基准 OmniDocBench v1.6 上取得 96.33% 的最新 SOTA（最佳）结果。同时，PaddleOCR-VL-1.6 在面向真实世界物理畸变鲁棒性的 Real5-OmniDocBench 基准测试中，也在各个场景下均达到 SOTA 性能。此外，在印章识别、文字检测识别和图表识别三个子任务上，PaddleOCR-VL-1.6 均领先 PaddleOCR-VL-1.5，同时依然保持 0.9B 超紧凑 VLM 参数量和高效率。

关键指标:

核心特性:

文档解析的SOTA性能： 凭借 0.9B 的参数量，PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上达到了 96.33% 的准确率，超越了之前的 SOTA 模型 PaddleOCR-VL-1.5。在表格、公式和文本识别方面观察到了显著提升。
现实5大场景文档解析的SOTA性能： 具备更强的鲁棒性和真实场景的实用性。在扫描、弯曲、倾斜、屏摄和光照变化这五个真实扰动场景的评估中，表现优于主流的开源和闭源模型。
强化多元素识别能力： 除了版面解析能力的提升外，PaddleOCR-VL-1.6 进一步大幅度增强了对复杂表格，古籍和生僻字的识别能力，同时在图表解析，印章识别，文字检测识别这三个原有能力上进一步提升。
0.9B紧凑架构： 沿用 PaddleOCR-VL系列的 0.9B 紧凑构架，零成本适配，即换即用。

二、技术架构

数据引擎: 以 PaddleOCR-VL-1.5 为出发点，系统性定位 PaddleOCR-VL-1.5 的欠优化区域，并设计高质量标签获取策略，针对性的进行数据优化。
渐进式后训练策略 从质量，难度，提升价值三个角度精细化划分数据，加载 PaddleOCR-VL-1.5 训练权重，结合不同的数据质量进行继续预训练，监督微调，强化学习三阶段的后训练策略，稳步提升模型性能。

三、模型性能

1. OmniDocBench v1.6

PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上的整体指标、文本、公式、表格均达到最先进的性能，其中在在阅读顺序方面，PaddleOCR-VL-1.6也取得了较为领先的指标。

注:

性能指标引自 OmniDocBench 官方排行榜。

2. Real5-OmniDocBench

在扫描、扭曲、屏摄、光照和倾斜这五个多样化且具挑战性的场景中，PaddleOCR-VL-1.6 均创下了新的 SOTA 记录。

注:

Real5-OmniDocBench 是 PaddleOCR团队基于 OmniDocBench v1.5 数据集构建的、面向真实场景的全新基准测试。该数据集包含五个不同场景：扫描 (Scanning)、扭曲 (Warping)、屏摄 (Screen-photography)、光照 (Illumination) 和倾斜 (Skew)。更多详情请参阅 Real5-OmniDocBench.

四、推理部署性能

PaddleOCR-VL-1.6 和 PaddleOCR-VL-1.5 采用完全相同的模型架构设计，因此有完全相同的推理速度。关于PaddleOCR-VL-1.5推理速度的说明可以参考 PaddleOCR-VL-1.5推理速度。

5. 可视化

和 PaddleOCR-VL-1.5 的对比

古籍识别

图表解析

公式识别

生僻字识别

印章识别

表格识别