README Fr - Paddleocr

<div align="center"> <p> </p> <h3>Boîte à outils OCR de pointe mondiale & Moteur d'IA documentaire</h3>

</div>

PaddleOCR convertit des documents et des images en données structurées prêtes pour les LLM (JSON/Markdown) avec une précision de pointe dans l'industrie. Avec plus de 70k étoiles et la confiance de projets de premier plan tels que Dify, RAGFlow et Cherry Studio, PaddleOCR est le socle fondamental pour construire des applications RAG intelligentes et des applications Agentiques.

🚀 Fonctionnalités clés

📄 Analyse intelligente de documents (prêt pour les LLM)

Transformer des visuels désordonnés en données structurées pour l'ère des LLM.

VLM documentaire de pointe : Avec PaddleOCR-VL-1.5 (0,9 milliard de paramètres), le modèle vision-langage léger de pointe de l'industrie pour l'analyse de documents. Il excelle dans l'analyse de documents complexes face à 5 grands défis du « monde réel » : Déformation, Numérisation, Photographie d'écran, Éclairage et Documents inclinés, avec des sorties structurées aux formats Markdown et JSON.
Conversion avec conscience de la structure : Propulsé par PP-StructureV3, convertissez sans effort des PDF et images complexes en Markdown ou JSON. Contrairement aux modèles de la série PaddleOCR-VL, il fournit des informations de coordonnées plus fines, incluant les coordonnées des cellules de tableau, les coordonnées du texte, et bien plus encore.
Efficacité prête pour la production : Atteignez une précision de niveau commercial avec une empreinte ultra-réduite. Surpasse de nombreuses solutions propriétaires sur les benchmarks publics tout en restant économe en ressources pour le déploiement en périphérie ou dans le cloud.

🔍 Reconnaissance de texte universelle (OCR de scène)

L'étalon-or mondial pour la détection de texte multilingue à haute vitesse.

Plus de 100 langues supportées : Reconnaissance native pour une vaste bibliothèque mondiale. Notre solution PP-OCRv5 à modèle unique gère élégamment les documents multilingues mixtes (chinois, anglais, japonais, pinyin, etc.).
Maîtrise des éléments complexes : Au-delà de la reconnaissance de texte standard, nous prenons en charge la détection de texte en scène naturelle dans une large gamme d'environnements, y compris les pièces d'identité, les vues de rue, les livres et les composants industriels.
Bond en performance : PP-OCRv5 apporte une amélioration de la précision de 13% par rapport aux versions précédentes, tout en maintenant l'« Efficacité extrême » pour laquelle PaddleOCR est célèbre.

🛠️ Écosystème centré sur les développeurs

Intégration transparente : Le premier choix pour l'écosystème des agents IA — profondément intégré avec Dify, RAGFlow, Pathway et Cherry Studio.
Volant de données pour LLM : Un pipeline complet pour construire des jeux de données de haute qualité, fournissant un « Moteur de données » durable pour l'affinage des grands modèles de langage.
Déploiement en un clic : Prend en charge divers backends matériels (GPU NVIDIA, CPU Intel, XPU Kunlunxin et divers accélérateurs IA).

📣 Mises à jour récentes

🔥 PaddleOCR v3.5.0 publié : des backends d'inférence plus flexibles et des sorties documentaires plus riches

Backends d'inférence plus flexibles : basculez en toute transparence entre les graphes statiques Paddle, les graphes dynamiques Paddle et Transformers. PaddleOCR est désormais profondément intégré à l'écosystème Hugging Face, et 20 modèles majeurs prennent en charge Transformers comme backend d'inférence.
Conversion des documents bureautiques en Markdown : conversion des formats courants comme Word, Excel et PowerPoint vers Markdown.
Export DOCX des résultats d'analyse : les séries PaddleOCR-VL, PP-StructureV3 et PP-DocTranslation prennent désormais en charge l'export des résultats d'analyse au format DOCX pour une consultation et une édition pratiques dans Microsoft Word.
SDK officiel d'inférence dans le navigateur : sortie du SDK officiel d'inférence dans le navigateur PaddleOCR.js, qui permet d'exécuter PP-OCRv5 directement dans le navigateur.

<details> <summary><strong>2026.01.29 : Publication de PaddleOCR 3.4.0</strong></summary> * **PaddleOCR-VL-1.5 (VLM 0,9 milliard de paramètres, état de l'art)** : Notre dernier modèle phare pour l'analyse de documents est désormais disponible ! * **94,5 % de précision sur OmniDocBench** : Surpasse les grands modèles généralistes de premier rang et les analyseurs de documents spécialisés. * **Robustesse dans le monde réel** : Premier à introduire l'algorithme **PP-DocLayoutV3** pour le positionnement de formes irrégulières, maîtrisant 5 scénarios difficiles : *Inclinaison, Déformation, Numérisation, Éclairage et Photographie d'écran*. * **Extension des capacités** : Prend désormais en charge la **Reconnaissance de sceaux**, la **Détection de texte**, et s'étend à **111 langues** (incluant le tibétain et le bengali). * **Maîtrise des longs documents** : Prend en charge la fusion automatique de tableaux sur plusieurs pages et l'identification hiérarchique des titres. * **Essayez-le maintenant** : Disponible sur [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5) ou sur notre [Site officiel](https://www.paddleocr.com). </details> <details> <summary><strong>2025.10.16 : Publication de PaddleOCR 3.3.0</strong></summary>

Publication de PaddleOCR-VL :
- Présentation du modèle :
  - PaddleOCR-VL est un modèle de pointe et économe en ressources, spécialement conçu pour l'analyse de documents. Son composant principal est PaddleOCR-VL-0.9B, un modèle vision-langage (VLM) compact mais puissant qui intègre un encodeur visuel à résolution dynamique de style NaViT avec le modèle de langage ERNIE-4.5-0.3B pour permettre une reconnaissance précise des éléments. Ce modèle innovant prend en charge efficacement 109 langues et excelle dans la reconnaissance d'éléments complexes (par exemple, texte, tableaux, formules et graphiques), tout en maintenant une consommation minimale de ressources. Grâce à des évaluations complètes sur des benchmarks publics largement utilisés et des benchmarks internes, PaddleOCR-VL atteint des performances de pointe à la fois dans l'analyse de documents au niveau de la page et dans la reconnaissance au niveau des éléments. Il surpasse significativement les solutions existantes, présente une forte compétitivité face aux VLM de premier plan, et offre des vitesses d'inférence rapides. Ces atouts le rendent très adapté au déploiement pratique dans des scénarios du monde réel. Le modèle a été publié sur HuggingFace. Tout le monde est invité à le télécharger et à l'utiliser ! Plus d'informations d'introduction sont disponibles dans PaddleOCR-VL.
- Fonctionnalités principales :
  - Architecture VLM compacte mais puissante : Nous présentons un nouveau modèle vision-langage spécialement conçu pour une inférence économe en ressources, atteignant des performances remarquables dans la reconnaissance d'éléments. En intégrant un encodeur visuel haute résolution dynamique de style NaViT avec le modèle de langage léger ERNIE-4.5-0.3B, nous améliorons considérablement les capacités de reconnaissance et l'efficacité du décodage du modèle. Cette intégration maintient une haute précision tout en réduisant les besoins de calcul, ce qui le rend bien adapté aux applications de traitement de documents efficaces et pratiques.
  - Performances de pointe en analyse de documents : PaddleOCR-VL atteint des performances à l'état de l'art à la fois dans l'analyse de documents au niveau de la page et dans la reconnaissance au niveau des éléments. Il surpasse significativement les solutions existantes basées sur des pipelines et présente une forte compétitivité face aux principaux modèles vision-langage (VLM) en analyse de documents. De plus, il excelle dans la reconnaissance d'éléments documentaires complexes, tels que le texte, les tableaux, les formules et les graphiques, ce qui le rend adapté à une large gamme de types de contenu difficiles, y compris le texte manuscrit et les documents historiques. Cela le rend très polyvalent et adapté à une large gamme de types de documents et de scénarios.
  - Support multilingue : PaddleOCR-VL prend en charge 109 langues, couvrant les principales langues mondiales, notamment le chinois, l'anglais, le japonais, le latin et le coréen, ainsi que les langues avec des scripts et des structures différents, tels que le russe (script cyrillique), l'arabe, l'hindi (script devanagari) et le thaï. Cette large couverture linguistique améliore considérablement l'applicabilité de notre système aux scénarios de traitement de documents multilingues et mondialisés.
Publication du modèle de reconnaissance multilingue PP-OCRv5 :
- Amélioration de la précision et de la couverture de la reconnaissance des scripts latins ; ajout de la prise en charge des systèmes cyrillique, arabe, devanagari, télougou, tamoul et d'autres systèmes linguistiques, couvrant la reconnaissance de 109 langues. Le modèle ne compte que 2 millions de paramètres, et la précision de certains modèles a augmenté de plus de 40 % par rapport à la génération précédente.

</details> <details> <summary><strong>2025.08.21 : Publication de PaddleOCR 3.2.0</strong></summary>

Ajouts significatifs de modèles :
- Introduction de l'entraînement, de l'inférence et du déploiement pour les modèles de reconnaissance PP-OCRv5 en anglais, thaï et grec. Le modèle PP-OCRv5 anglais apporte une amélioration de 11 % dans les scénarios en anglais par rapport au modèle principal PP-OCRv5, avec les modèles de reconnaissance thaï et grec atteignant des précisions de 82,68 % et 89,28 %, respectivement.
Améliorations des capacités de déploiement :
- Prise en charge complète des versions 3.1.0 et 3.1.1 du framework PaddlePaddle.
- Mise à niveau complète de la solution de déploiement local C++ de PP-OCRv5, prenant désormais en charge Linux et Windows, avec une parité de fonctionnalités et une précision identique à l'implémentation Python.
- L'inférence haute performance prend désormais en charge CUDA 12, et l'inférence peut être effectuée en utilisant le backend Paddle Inference ou ONNX Runtime.
- La solution de déploiement orientée services à haute stabilité est désormais entièrement open-source, permettant aux utilisateurs de personnaliser les images Docker et les SDK selon leurs besoins.
- La solution de déploiement orientée services à haute stabilité prend également en charge l'invocation via des requêtes HTTP construites manuellement, permettant le développement de code client dans n'importe quel langage de programmation.
Support des benchmarks :
- Toutes les lignes de production prennent désormais en charge des benchmarks granulaires, permettant la mesure du temps d'inférence de bout en bout ainsi que les données de latence par couche et par module pour faciliter l'analyse des performances. Voici comment configurer et utiliser la fonctionnalité de benchmark.
- La documentation a été mise à jour pour inclure les métriques clés pour les configurations couramment utilisées sur le matériel grand public, telles que la latence d'inférence et l'utilisation de la mémoire, fournissant des références de déploiement pour les utilisateurs.
Corrections de bugs :
- Résolution du problème de l'échec de sauvegarde des journaux lors de l'entraînement du modèle.
- Mise à niveau du composant d'augmentation de données pour les modèles de formules pour la compatibilité avec les nouvelles versions de la dépendance albumentations, et correction des avertissements de blocage lors de l'utilisation du package tokenizers dans des scénarios multi-processus.
- Correction des incohérences dans les comportements des commutateurs (par exemple, use_chart_parsing) dans les fichiers de configuration PP-StructureV3 par rapport aux autres pipelines.
Autres améliorations :
- Séparation des dépendances principales et optionnelles. Seules les dépendances principales minimales sont requises pour la reconnaissance de texte de base ; des dépendances supplémentaires pour l'analyse de documents et l'extraction d'informations peuvent être installées selon les besoins.
- Activation de la prise en charge des cartes graphiques NVIDIA RTX série 50 sous Windows ; les utilisateurs peuvent consulter le guide d'installation pour les versions correspondantes du framework PaddlePaddle.
- Les modèles de la série PP-OCR prennent désormais en charge le retour des coordonnées de chaque caractère.
- Ajout de sources de téléchargement de modèles AIStudio, ModelScope et autres, permettant aux utilisateurs de spécifier la source pour les téléchargements de modèles.
- Ajout de la prise en charge de la conversion graphique en tableau via le module PP-Chart2Table.
- Optimisation des descriptions de documentation pour améliorer la facilité d'utilisation.

</details>

Journal des modifications

</details>

🚀 Démarrage rapide

Étape 1 : Essayer en ligne

Le site officiel de PaddleOCR propose un Centre d'expérience interactif et des API — aucune configuration requise, un seul clic pour découvrir.

👉 Visiter le site officiel

Étape 2 : Déploiement local

Pour une utilisation locale, veuillez consulter la documentation suivante en fonction de vos besoins :

Série PP-OCR : Voir la documentation PP-OCR
Série PaddleOCR-VL : Voir la documentation PaddleOCR-VL
PP-StructureV3 : Voir la documentation PP-StructureV3
Autres capacités : Voir la documentation sur les autres capacités

🧩 Plus de fonctionnalités

Convertir des modèles au format ONNX : Obtenir des modèles ONNX.
Accélérer l'inférence à l'aide de moteurs tels qu'OpenVINO, ONNX Runtime, TensorRT, ou effectuer une inférence à l'aide de modèles au format ONNX : Inférence haute performance.
Accélérer l'inférence à l'aide de plusieurs GPU et plusieurs processus : Inférence parallèle pour les pipelines.
Intégrer PaddleOCR dans des applications écrites en C++, C#, Java, etc. : Services.

🔄 Aperçu rapide des résultats d'exécution

PP-OCRv5

PP-StructureV3

PaddleOCR-VL

✨ Restez informé

⭐ Mettez une étoile à ce dépôt pour suivre les mises à jour passionnantes et les nouvelles versions, y compris les puissantes capacités d'OCR et d'analyse de documents ! ⭐

👩‍👩‍👧‍👦 Communauté

Compte officiel WeChat de PaddlePaddle	Rejoindre le groupe de discussion technique

</div>

😃 Projets remarquables utilisant PaddleOCR

PaddleOCR n'en serait pas là aujourd'hui sans son incroyable communauté ! 💗 Un immense merci à tous nos partenaires de longue date, aux nouveaux collaborateurs et à tous ceux qui ont mis leur passion dans PaddleOCR — que nous vous ayons cités ou non. Votre soutien alimente notre feu !

Nom du projet	Description
Dify <a href="https://github.com/langgenius/dify"></a>	Plateforme prête pour la production pour le développement de flux de travail agentiques.
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>	Moteur RAG basé sur la compréhension approfondie des documents.
pathway <a href="https://github.com/pathwaycom/pathway"></a>	Framework Python ETL pour le traitement de flux, l'analytique en temps réel, les pipelines LLM et le RAG.
MinerU <a href="https://github.com/opendatalab/MinerU"></a>	Outil de conversion de documents multi-types en Markdown.
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>	Logiciel OCR hors ligne par lots, gratuit et open-source.
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>	Un client de bureau prenant en charge plusieurs fournisseurs de LLM.
haystack<a href="https://github.com/deepset-ai/haystack"></a>	Framework d'orchestration IA pour construire des applications LLM personnalisables et prêtes pour la production.
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>	OmniParser : Outil d'analyse d'écran pour agent GUI basé sur la vision pure.
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>	Questions et réponses basées sur n'importe quoi.
En savoir plus sur les projets	Plus de projets basés sur PaddleOCR

</div>

👩‍👩‍👧‍👦 Contributeurs

🌟 Étoiles

📄 Licence

Ce projet est publié sous la licence Apache 2.0.

🎓 Citation

bibtex

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report}, 
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595}, 
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957}, 
}