README Tcn - Paddleocr

<div align="center"> <p> </p> <h3>全球領先的 OCR 工具包與文檔 AI 引擎</h3>

</div>

PaddleOCR 以業界領先的精準度，將 PDF 文件和圖像轉換為結構化、LLM 友好的資料格式（JSON/Markdown）。憑藉 70,000+ Stars 的成績，PaddleOCR 已獲得 Dify、RAGFlow、Cherry Studio 等頂級專案的廣泛信賴，是建構智慧 RAG 和 Agentic 應用的核心基礎元件。

🚀 核心特性

📄 智能文檔解析（面向大模型）

為大模型時代將雜亂的文檔視覺信息轉化為結構化數據。

SOTA 級文檔視覺語言模型 (VLM): 業界領先的輕量級文檔解析視覺語言模型 PaddleOCR-VL-1.5 (0.9B)。它在五大"真實場景"中表現卓越：彎曲、掃描、屏幕拍照、複雜光照及傾斜文檔，並支持以 Markdown 和 JSON 格式輸出結構化結果。
版面結構分析：由PP-StructureV3驅動，無縫將複雜的PDF和圖像轉換為Markdown或JSON格式。與PaddleOCR-VL系列模型不同，它提供更細粒度的坐標信息,包括表格單元格坐標、文本坐標等，
生產級高效能：以極小的模型體積實現商業級別的準確率。在公開基準測試中超越眾多閉源解決方案，同時保持極高的資源利用率，完美適配邊緣計算與雲端部署。

🔍 通用文本識別（場景 OCR）

快速、多語言文本檢測與識別的全球黃金標準。

支持 100+ 種語言：原生支持龐大豐富的全球語種庫。我們的 PP-OCRv5 模型解決方案能夠優雅應對多語言混合排版文檔（中文、英文、日文、拼音等）。
複雜場景支持：除了標準的文本識別，我們還支持在各種廣泛的環境下進行自然場景文本檢測與識別，涵蓋身份證件、街景、書籍以及工業零部件等。
性能提升：PP-OCRv5 相比前代版本實現了 13% 的準確率提升，同時延續了 PaddleOCR 的"極致高效"特性。

🛠️ 以開發者為中心的生態系統

無縫集成：AI智能體生態系統的首選——與Dify、RAGFlow、Pathway和Cherry Studio深度集成。
大語言模型數據飛輪：完整的數據流水線,用於構建高質量數據集，為微調大語言模型提供可持續的"數據引擎"。
一鍵部署：支持多種硬件後端(NVIDIA GPU、Intel CPU、昆侖芯XPU和多種AI加速器)。

📣 最新動態

🔥 PaddleOCR v3.5.0 發布：推理後端更靈活，文檔輸出更豐富

推理後端靈活切換：支持在飛槳靜態圖、飛槳動態圖和 Transformers 之間無縫切換。深度適配 Hugging Face 生態，20 個主要模型支持以 Transformers 作為推理後端。
常見文檔格式轉 Markdown：支持將 Word、Excel、PowerPoint 等常見文檔格式轉換為 Markdown。
解析結果導出 DOCX：PaddleOCR-VL 系列、PP-StructureV3 和 PP-DocTranslation 現已支持將解析結果導出為 DOCX，便於在 Microsoft Word 中查看和編輯。
官方瀏覽器推理 SDK：發布官方瀏覽器推理 SDK PaddleOCR.js，支持在瀏覽器中運行 PP-OCRv5。

<details> <summary><strong>2026.01.29: PaddleOCR 3.4.0 發布</strong></summary> * **PaddleOCR-VL-1.5 (SOTA 0.9B VLM)**：我們最新的旗艦文檔解析模型現已上線! * **OmniDocBench 94.5%準確率**：超越頂級通用大模型和專業文檔解析模型。 * **現實5大場景文檔解析的SOTA性能**：首次引入**PP-DocLayoutV3**算法進行不規則形狀定位，掌控5種艱難場景:傾斜、彎曲、掃描、光照和屏幕拍照。 * **能力拓展**：現已支持**印章識別**、**文本識別**，並擴展至**111種語言**(包括中國的藏文和孟加拉語)。 * **長文檔跨頁解析**：支持自動跨頁表格合併和分層標題識別。 * **立即試用**：可在[HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5)或我們的[官方網站](https://www.paddleocr.com)使用。 </details> <details> <summary><strong>2025.10.16: PaddleOCR 3.3.0 發布</strong></summary>

發布PaddleOCR-VL：
- 模型介紹：
  - PaddleOCR-VL 是一款先進、高效的文檔解析模型，專為文檔中的元素識別設計。其核心組件為 PaddleOCR-VL-0.9B，這是一種緊湊而強大的視覺語言模型（VLM），它由 NaViT 風格的動態分辨率視覺編碼器與 ERNIE-4.5-0.3B 語言模型組成，能夠實現精準的元素識別。該模型支持 109 種語言，並在識別複雜元素（如文本、表格、公式和圖表）方面表現出色，同時保持極低的資源消耗。通過在廣泛使用的公開基準與內部基準上的全面評測，PaddleOCR-VL 在頁級級文檔解析與元素級識別均達到 SOTA 表現。它顯著優於現有的基於Pipeline方案和文檔解析多模態方案以及先進的通用多模態大模型，並具備更快的推理速度。這些優勢使其非常適合在真實場景中落地部署。模型已發布至HuggingFace，歡迎大家下載使用！更多介紹內容請點擊PaddleOCR-VL。
- 特性：
  - 緊湊而強大的視覺語言模型架構：我們提出了一種新的視覺語言模型，專為資源高效的推理而設計，在元素識別方面表現出色。通過將NaViT風格的動態高分辨率視覺編碼器與輕量級的ERNIE-4.5-0.3B語言模型結合，我們顯著增強了模型的識別能力和解碼效率。這種集成在保持高準確率的同時降低了計算需求，使其非常適合高效且實用的文檔處理應用。
  - 文檔解析的SOTA性能：PaddleOCR-VL在頁面級文檔解析和元素級識別中達到了最先進的性能。它顯著優於現有的基於流水線的解決方案，並在文檔解析中展現出與領先的視覺語言模型（VLMs）競爭的強勁實力。此外，它在識別複雜的文檔元素（如文本、表格、公式和圖表）方面表現出色，使其適用於包括手寫文本和歷史文獻在內的各種具有挑戰性的內容類型。這使得它具有高度的多功能性，適用於廣泛的文檔類型和場景。
  - 多語言支持：PaddleOCR-VL支持109種語言，覆蓋了主要的全球語言，包括但不限於中文、英文、日文、拉丁文和韓文，以及使用不同文字和結構的語言，如俄語（西里爾字母）、阿拉伯語、印地語（天城文）和泰語。這種廣泛的語言覆蓋大大增強了我們系統在多語言和全球化文檔處理場景中的適用性。
發布PP-OCRv5小語種識別模型：
- 優化拉丁文識別的準度和廣度，新增西里爾文、阿拉伯文、天城文、泰盧固語、泰米爾語等語系，覆蓋109種語言文字的識別。模型參數量僅為2M，部分模型精度較上一代提升40%以上。

</details> <details> <summary><strong>2025.08.21: PaddleOCR 3.2.0 發布</strong></summary>

重要模型新增：
- 新增 PP-OCRv5 英文、泰文、希臘文識別模型的訓練、推理、部署。其中 PP-OCRv5 英文模型較 PP-OCRv5 主模型在英文場景提升 11%，泰文識別模型精度 82.68%，希臘文識別模型精度 89.28%。
部署能力升級：
- 全面支持飛槳框架 3.1.0 和 3.1.1 版本。
- 全面升級 PP-OCRv5 C++ 本地部署方案，支持 Linux、Windows，功能及精度效果與 Python 方案保持一致。
- 高性能推理支持 CUDA 12，可使用 Paddle Inference、ONNX Runtime 後端推理。
- 高穩定性服務化部署方案全面開源，支持用戶根據需求對 Docker 鏡像和 SDK 進行定制化修改。
- 高穩定性服務化部署方案支持通過手動構造HTTP請求的方式調用，該方式允許客戶端代碼使用任意編程語言編寫。
Benchmark支持：
- 全部產線支持產線細粒度 benchmark，能夠測量產線端到端推理時間以及逐層、逐模塊的耗時數據，可用於輔助產線性能分析。可以參考文檔來進行性能測試。
- 文檔中補充各產線常用配置在主流硬件上的關鍵指標，包括推理耗時和內存佔用等，為用戶部署提供參考。
Bug修復：
- 修復模型訓練時訓練日誌保存失敗的問題。
- 對公式模型的數據增強部分進行了版本兼容性升級，以適應新版本的 albumentations 依賴，並修復了在多進程使用 tokenizers 依賴包時出現的死鎖警告。
- 修復 PP-StructureV3 配置文件中的 use_chart_parsing 等開關行為與其他產線不統一的問題。
其他升級：
- 分離必要依賴與可選依賴。使用基礎文字識別功能時，僅需安裝少量核心依賴；若需文檔解析、信息抽取等功能，用戶可按需選擇安裝額外依賴。
- 支持 Windows 用戶使用英偉達 50 系顯卡，可根據安裝文檔安裝對應版本的 paddle 框架。
- PP-OCR 系列模型支持返回單文字坐標。
- 模型新增 AIStudio、ModelScope 等下載源。可指定相關下載源下載對應的模型。
- 支持圖表轉表 PP-Chart2Table 單功能模塊推理能力。
- 優化部分使用文檔中的描述，提升易用性。

</details>

歷史日誌

</details>

🚀 快速開始

步驟 1: 在線體驗

PaddleOCR官方網站提供交互式體驗中心和APIs——無需設置,一鍵體驗。

👉 訪問官方網站

步驟 2: 本地部署

對於本地使用,請根據您的需求參考以下文檔:

PP-OCR系列：查看PP-OCR文檔
PaddleOCR-VL系列：查看PaddleOCR-VL文檔
PP-StructureV3：查看PP-StructureV3文檔
更多能力：查看更多能力文檔

🧩 更多功能

將模型轉換為ONNX格式: 獲取ONNX模型。
使用OpenVINO、ONNX Runtime、TensorRT等引擎加速推理,或使用ONNX格式模型進行推理: 高性能推理。
使用多GPU和多進程加速推理: 流水線並行推理。
將PaddleOCR集成到C++、C#、Java等語言編寫的應用程序中: 服務化部署。

🔄 執行結果快速預覽

PP-OCRv5

PP-StructureV3

PaddleOCR-VL

✨ 保持關注

⭐ 收藏本倉庫，持續關注最新動態與版本發布，包括強大的 OCR 及文檔解析等新功能特性。 ⭐

👩‍👩‍👧‍👦 社區

PaddlePaddle 微信公眾號	加入技術討論群

</div>

😃 使用 PaddleOCR 的優秀項目

PaddleOCR 的發展離不開社區貢獻！💗衷心感謝所有開發者、合作夥伴與貢獻者！

項目名稱	簡介
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>	基於RAG的AI工作流引擎
pathway <a href="https://github.com/pathwaycom/pathway"></a>	用於流處理、實時分析、LLM流水線和RAG的Python ETL框架
MinerU <a href="https://github.com/opendatalab/MinerU"></a>	多類型文檔轉換Markdown工具
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>	開源批量離線OCR軟件
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>	一個支持多個LLM提供商的桌面客戶端
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>	基於純視覺的GUI智能體屏幕解析工具
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>	基於任意內容的問答系統
PDF-Extract-Kit <a href="https://github.com/opendatalab/PDF-Extract-Kit"></a>	高效複雜PDF文檔提取工具包
Dango-Translator<a href="https://github.com/PantsuDango/Dango-Translator"></a>	屏幕實時翻譯工具
更多項目	更多基於PaddleOCR的項目

</div>

👩‍👩‍👧‍👦 貢獻者

🌟 Star歷史

📄 許可證

本項目採用Apache 2.0許可證發布。

🎓 引用

bibtex

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report},
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595},
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528},
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957},
}