Back to Paddleocr

README Ja

readme/README_ja.md

3.5.025.8 KB
Original Source
<div align="center"> <p> </p> <h3>世界をリードするOCRツールキット & ドキュメントAIエンジン</h3>

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Français | Русский | Español | العربية

<!-- icon -->

</div>

PaddleOCRは、ドキュメントや画像を業界最高水準の精度で構造化されたLLM対応データ(JSON/Markdown)に変換します。70,000以上のStarを獲得し、Dify、RAGFlow、Cherry Studioなどの一流プロジェクトで採用されているPaddleOCRは、インテリジェントなRAGおよびエージェントアプリケーション構築の基盤です。

🚀 主な機能

📄 インテリジェントドキュメント解析(LLM対応)

LLM時代に向けて、雑然とした視覚データを構造化データに変換

  • 最先端のドキュメントVLM: 業界をリードする軽量視覚言語モデル PaddleOCR-VL-1.5(0.9B) を搭載。歪み、スキャン、画面撮影、照明、傾きという5つの主要な「実環境」課題にわたる複雑なドキュメント解析に優れ、MarkdownおよびJSON形式の構造化出力に対応しています。
  • 構造認識型変換: PP-StructureV3を活用し、複雑なPDFや画像をMarkdownまたはJSONにシームレスに変換します。PaddleOCR-VLシリーズモデルとは異なり、テーブルセル座標、テキスト座標などのより詳細な座標情報を提供します。
  • 本番環境対応の効率性: 超小型フットプリントで商用レベルの精度を実現。公開ベンチマークで多くのクローズドソースソリューションを凌駕しつつ、エッジ/クラウドデプロイメントに対してリソース効率を維持します。

🔍 汎用テキスト認識(シーンOCR)

高速・多言語テキスト検出のグローバルスタンダード

  • 100以上の言語をサポート: 広範なグローバル言語ライブラリのネイティブ認識。PP-OCRv5の単一モデルソリューションは、多言語混在ドキュメント(中国語、英語、日本語、ピンインなど)をエレガントに処理します。
  • 複雑な要素への対応力: 標準的なテキスト認識を超え、身分証明書、街頭風景、書籍、産業部品など、幅広い環境での自然シーンテキスト検出をサポートします。
  • 性能の飛躍的向上: PP-OCRv5は前バージョンと比較して13%の精度向上を達成し、PaddleOCRの代名詞である「極限の効率性」を維持しています。
<div align="center"> <p> </p> </div>

🛠️ 開発者中心のエコシステム

  • シームレスな統合: AIエージェントエコシステムの最良の選択肢 ── Dify、RAGFlow、Pathway、Cherry Studioと深く統合されています。
  • LLMデータフライホイール: 高品質データセットを構築する完全なパイプラインを提供し、大規模言語モデルのファインチューニングのための持続可能な「データエンジン」を実現します。
  • ワンクリックデプロイ: さまざまなハードウェアバックエンド(NVIDIA GPU、Intel CPU、Kunlunxin XPU、各種AIアクセラレータ)をサポートします。

📣 最新情報

🔥 PaddleOCR v3.5.0 リリース:より柔軟な推論バックエンドと、より充実したドキュメント出力

  • 柔軟な推論バックエンド: Paddleの静的グラフ、動的グラフ、Transformersをシームレスに切り替え可能。Hugging Face エコシステムに深く対応し、主要20モデルがTransformersを推論バックエンドとしてサポート。
  • Office文書をMarkdownに変換: Word、Excel、PowerPoint などの一般的な文書形式を Markdown に変換可能。
  • 解析結果の DOCX 出力: PaddleOCR-VL シリーズ、PP-StructureV3PP-DocTranslation で、解析結果を DOCX として出力できるようになり、Microsoft Word での閲覧・編集が容易に。
  • 公式ブラウザ推論 SDK: 公式ブラウザ推論 SDK PaddleOCR.js を公開し、ブラウザ上で PP-OCRv5 を実行可能。
<details> <summary><strong>2026.01.29: PaddleOCR 3.4.0リリース</strong></summary> * **PaddleOCR-VL-1.5(最先端の0.9B VLM)**: ドキュメント解析のための最新フラッグシップモデルが公開されました! * **OmniDocBenchで94.5%の精度**: トップクラスの汎用大規模モデルや専門ドキュメントパーサーを凌駕。 * **実環境でのロバスト性**: 非定型形状位置決定のための**PP-DocLayoutV3**アルゴリズムを初めて導入し、*傾き、歪み、スキャン、照明、画面撮影*の5つの困難なシナリオに対応。 * **機能拡張**: **印鑑認識**、**テキスト検出**をサポートし、**111言語**(中国のチベット文字やベンガル文字を含む)に対応拡大。 * **長文ドキュメントへの対応**: ページをまたがるテーブルの自動結合および階層的な見出し識別をサポート。 * **今すぐ試す**: [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5)または[公式ウェブサイト](https://www.paddleocr.com)で利用可能です。 </details> <details> <summary><strong>2025.10.16: PaddleOCR 3.3.0リリース</strong></summary>
  • PaddleOCR-VLをリリース:

    • モデル紹介:

      • PaddleOCR-VLはドキュメント解析に特化した最先端かつリソース効率の高いモデルです。コアコンポーネントであるPaddleOCR-VL-0.9Bは、NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合したコンパクトながらも強力な視覚言語モデル(VLM)であり、正確な要素認識を実現します。この革新的なモデルは109言語を効率的にサポートし、複雑な要素(テキスト、テーブル、数式、チャートなど)の認識に優れつつ、リソース消費を最小限に抑えます。広く使用されている公開ベンチマークおよび社内ベンチマークでの包括的な評価を通じて、PaddleOCR-VLはページレベルのドキュメント解析と要素レベルの認識の両方で最先端の性能を達成しています。既存のソリューションを大幅に上回り、トップクラスのVLMに対して高い競争力を示し、高速な推論速度を提供します。これらの強みにより、実世界のシナリオへの実践的なデプロイメントに非常に適しています。モデルはHuggingFaceで公開されています。ぜひダウンロードしてお使いください!詳細情報はPaddleOCR-VLをご覧ください。
    • 主要機能:

      • コンパクトかつ強力なVLMアーキテクチャ: リソース効率の高い推論に特化した新しい視覚言語モデルを提案し、要素認識において卓越した性能を実現しました。NaViTスタイルの動的高解像度ビジュアルエンコーダと軽量なERNIE-4.5-0.3B言語モデルを統合することで、モデルの認識能力とデコード効率を大幅に向上させました。この統合により、計算負荷を削減しつつ高い精度を維持し、効率的で実用的なドキュメント処理アプリケーションに適しています。
      • ドキュメント解析における最先端性能: PaddleOCR-VLはページレベルのドキュメント解析と要素レベルの認識の両方で最先端の性能を達成しています。既存のパイプラインベースのソリューションを大幅に上回り、ドキュメント解析における主要な視覚言語モデル(VLM)に対して高い競争力を示しています。さらに、テキスト、テーブル、数式、チャートなどの複雑なドキュメント要素の認識に優れ、手書きテキストや歴史文書を含む幅広い種類のコンテンツに対応可能です。これにより、多様なドキュメントタイプやシナリオに対して高い汎用性を発揮します。
      • 多言語サポート: PaddleOCR-VLは109言語をサポートし、中国語、英語、日本語、ラテン語、韓国語をはじめ、ロシア語(キリル文字)、アラビア語、ヒンディー語(デーヴァナーガリー文字)、タイ語など、異なる文字体系や構造を持つ言語を含む主要なグローバル言語をカバーしています。この幅広い言語対応により、多言語およびグローバルなドキュメント処理シナリオへの適用性が大幅に向上しています。
  • PP-OCRv5多言語認識モデルをリリース:

    • ラテン文字認識の精度とカバレッジを改善。キリル文字、アラビア文字、デーヴァナーガリー文字、テルグ文字、タミル文字など他の文字体系のサポートを追加し、109言語の認識をカバー。モデルのパラメータ数はわずか2Mで、一部のモデルの精度は前世代と比較して40%以上向上しています。
</details> <details> <summary><strong>2025.08.21: PaddleOCR 3.2.0リリース</strong></summary>
  • モデルの大幅な追加:

    • PP-OCRv5認識モデルの英語、タイ語、ギリシャ語の学習、推論、デプロイメントを導入。PP-OCRv5英語モデルは、主要なPP-OCRv5モデルと比較して英語シナリオで11%の改善を達成し、タイ語およびギリシャ語の認識モデルはそれぞれ82.68%および89.28%の精度を実現しています。
  • デプロイメント機能のアップグレード:

    • PaddlePaddleフレームワークバージョン3.1.0および3.1.1を完全サポート。
    • PP-OCRv5 C++ローカルデプロイメントソリューションを全面アップグレードし、LinuxとWindowsの両方をサポート。Python実装と同等の機能および精度を実現。
    • 高性能推論がCUDA 12をサポートし、Paddle InferenceまたはONNX Runtimeバックエンドを使用した推論が可能。
    • 高安定性サービス指向デプロイメントソリューションが完全にオープンソース化され、ユーザーが必要に応じてDockerイメージやSDKをカスタマイズ可能。
    • 高安定性サービス指向デプロイメントソリューションは、手動でHTTPリクエストを構築して呼び出すこともサポートしており、任意のプログラミング言語でクライアント側コードの開発が可能です。
  • ベンチマークサポート:

    • 全プロダクションラインがきめ細かいベンチマークをサポートし、エンドツーエンドの推論時間だけでなく、レイヤーごとおよびモジュールごとのレイテンシデータの測定が可能となり、性能分析を支援します。ベンチマーク機能のセットアップと使用方法はこちらをご覧ください。
    • 主要なハードウェアでよく使用される構成の推論レイテンシやメモリ使用量などの重要な指標を含むようドキュメントを更新し、ユーザーにデプロイメントの参考情報を提供。
  • バグ修正:

    • モデル学習時のログ保存失敗の問題を解決。
    • 数式モデルのデータ拡張コンポーネントをアップグレードし、albumentations依存関係の新しいバージョンとの互換性を確保。マルチプロセスシナリオでtokenizersパッケージ使用時のデッドロック警告を修正。
    • PP-StructureV3設定ファイルにおけるスイッチ動作(例:use_chart_parsing)の他のパイプラインとの不整合を修正。
  • その他の改善:

    • コア依存関係とオプション依存関係を分離。基本的なテキスト認識には最小限のコア依存関係のみが必要で、ドキュメント解析や情報抽出のための追加依存関係は必要に応じてインストール可能。
    • WindowsでNVIDIA RTX 50シリーズグラフィックスカードのサポートを有効化。対応するPaddlePaddleフレームワークバージョンについてはインストールガイドを参照してください。
    • PP-OCRシリーズモデルが単一文字座標の返却をサポート。
    • AIStudio、ModelScopeなどのモデルダウンロードソースを追加し、ユーザーがモデルダウンロードのソースを指定可能に。
    • PP-Chart2Tableモジュールによるチャートからテーブルへの変換サポートを追加。
    • ドキュメントの説明を最適化し、使いやすさを向上。
</details>

更新履歴

</details>

🚀 クイックスタート

ステップ1:オンラインで試す

PaddleOCR公式ウェブサイトでは、インタラクティブな体験センターAPIを提供しています。セットアップ不要、ワンクリックで体験できます。

👉 公式ウェブサイトへアクセス

ステップ2:ローカルデプロイメント

ローカルでの使用については、ニーズに応じて以下のドキュメントを参照してください:

🧩 その他の機能

🔄 実行結果の概要

PP-OCRv5

<div align="center"> <p> </p> </div>

PP-StructureV3

<div align="center"> <p> </p> </div>

PaddleOCR-VL

<div align="center"> <p> </p> </div>

✨ 最新情報をチェック

このリポジトリにStarを付けて、強力なOCRおよびドキュメント解析機能を含むエキサイティングなアップデートや新リリースを見逃さないようにしましょう!

<div align="center"> <p> </p> </div>

👩‍👩‍👧‍👦 コミュニティ

<div align="center">
PaddlePaddle WeChat公式アカウント技術ディスカッショングループに参加
</div>

😃 PaddleOCRを活用した素晴らしいプロジェクト

PaddleOCRが今日あるのは、素晴らしいコミュニティのおかげです!💗 長年のパートナー、新たな協力者、そしてPaddleOCRに情熱を注いでくださったすべての皆様に心から感謝いたします。名前を挙げきれなかった方も含めて、皆様のサポートが私たちの原動力です!

<div align="center">
プロジェクト名説明
Dify <a href="https://github.com/langgenius/dify"></a>エージェントワークフロー開発のためのプロダクション対応プラットフォーム。
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>深いドキュメント理解に基づくRAGエンジン。
pathway <a href="https://github.com/pathwaycom/pathway"></a>ストリーム処理、リアルタイム分析、LLMパイプライン、RAG向けのPython ETLフレームワーク。
MinerU <a href="https://github.com/opendatalab/MinerU"></a>マルチタイプドキュメントからMarkdownへの変換ツール。
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>無料・オープンソースのバッチオフラインOCRソフトウェア。
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>複数のLLMプロバイダーをサポートするデスクトップクライアント。
haystack<a href="https://github.com/deepset-ai/haystack"></a>カスタマイズ可能なプロダクション対応LLMアプリケーションを構築するためのAIオーケストレーションフレームワーク。
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>純粋なビジョンベースのGUIエージェント向け画面解析ツール。
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>あらゆるものに基づく質問応答。
その他のプロジェクトを見るPaddleOCRに基づくその他のプロジェクト
</div>

👩‍👩‍👧‍👦 コントリビューター

<div align="center"> <a href="https://github.com/PaddlePaddle/PaddleOCR/graphs/contributors"> </a> </div>

🌟 Star

<div align="center"> <p> </p> </div>

📄 ライセンス

このプロジェクトはApache 2.0ライセンスの下で公開されています。

🎓 引用

bibtex
@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report},
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595},
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528},
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957},
}