README Ar - Paddleocr

<div align="center"> <p> </p> <h3>مجموعة أدوات التعرف الضوئي على الحروف (OCR) الرائدة عالمياً ومحرك الذكاء الاصطناعي للمستندات</h3>

</div>

يحوّل PaddleOCR المستندات والصور إلى بيانات منظمة جاهزة للنماذج اللغوية الكبيرة (JSON/Markdown) بدقة رائدة في المجال. بأكثر من 70 ألف نجمة وثقة مشاريع رائدة مثل Dify وRAGFlow وCherry Studio، يُعد PaddleOCR الأساس المتين لبناء تطبيقات RAG والتطبيقات الوكيلية الذكية.

🚀 الميزات الرئيسية

📄 تحليل ذكي للمستندات (جاهز للنماذج اللغوية الكبيرة)

تحويل المرئيات المعقدة إلى بيانات منظمة لعصر النماذج اللغوية الكبيرة.

نموذج رؤية-لغة رائد للمستندات: يتميز بنموذج PaddleOCR-VL-1.5 (0.9B)، النموذج خفيف الحجم الرائد في المجال للرؤية واللغة لتحليل المستندات. يتفوق في تحليل المستندات المعقدة عبر 5 تحديات رئيسية من "العالم الواقعي": التشوه، المسح الضوئي، تصوير الشاشة، الإضاءة، والمستندات المائلة، مع مخرجات منظمة بصيغ Markdown وJSON.
تحويل مدرك للبنية: بدعم من PP-StructureV3، يتم تحويل ملفات PDF والصور المعقدة بسلاسة إلى Markdown أو JSON. على عكس نماذج سلسلة PaddleOCR-VL، يوفر معلومات إحداثية أدق تشمل إحداثيات خلايا الجداول وإحداثيات النصوص وغيرها.
كفاءة جاهزة للإنتاج: تحقيق دقة بمستوى تجاري مع حجم صغير للغاية. يتفوق على العديد من الحلول المغلقة المصدر في المعايير المرجعية العامة مع الحفاظ على كفاءة استخدام الموارد للنشر على الأجهزة الطرفية والسحابية.

🔍 التعرف الشامل على النصوص (OCR للمشاهد)

المعيار الذهبي العالمي للكشف السريع عن النصوص متعددة اللغات.

دعم أكثر من 100 لغة: تعرف أصلي على مكتبة عالمية واسعة من اللغات. حل PP-OCRv5 بنموذج واحد يتعامل بأناقة مع المستندات متعددة اللغات المختلطة (الصينية، الإنجليزية، اليابانية، البينيين، وغيرها).
إتقان العناصر المعقدة: بالإضافة إلى التعرف القياسي على النصوص، ندعم الكشف عن النصوص في المشاهد الطبيعية عبر مجموعة واسعة من البيئات، بما في ذلك بطاقات الهوية، ومشاهد الشوارع، والكتب، والمكونات الصناعية.
قفزة في الأداء: يقدم PP-OCRv5 تحسيناً بنسبة 13% في الدقة مقارنة بالإصدارات السابقة، مع الحفاظ على "الكفاءة القصوى" التي اشتهر بها PaddleOCR.

🛠️ منظومة مُركّزة على المطورين

تكامل سلس: الخيار الأمثل لمنظومة الوكلاء الذكيين — متكامل بعمق مع Dify وRAGFlow وPathway وCherry Studio.
حلقة بيانات النماذج اللغوية الكبيرة: خط أنابيب كامل لبناء مجموعات بيانات عالية الجودة، يوفر "محرك بيانات" مستداماً لضبط النماذج اللغوية الكبيرة.
نشر بنقرة واحدة: دعم لمختلف منصات العتاد (وحدات معالجة الرسومات NVIDIA، معالجات Intel، وحدات Kunlunxin XPU، ومسرّعات الذكاء الاصطناعي المتنوعة).

📣 آخر التحديثات

🔥 إصدار PaddleOCR v3.5.0: مرونة أكبر في واجهات الاستدلال ومخرجات وثائق أغنى

مرونة أكبر في تبديل واجهات الاستدلال: يدعم التبديل السلس بين الرسم البياني الثابت في Paddle، والرسم البياني الديناميكي في Paddle، وTransformers. أصبح PaddleOCR الآن متكاملاً بعمق مع منظومة Hugging Face، كما تدعم 20 من النماذج الرئيسية استخدام Transformers كواجهة للاستدلال.
تحويل مستندات Office إلى Markdown: يدعم تحويل صيغ المستندات الشائعة مثل Word وExcel وPowerPoint إلى Markdown.
تصدير نتائج التحليل إلى DOCX: أصبحت سلاسل PaddleOCR-VL وPP-StructureV3 وPP-DocTranslation تدعم الآن تصدير نتائج التحليل إلى DOCX لسهولة العرض والتحرير في Microsoft Word.
حزمة SDK الرسمية للاستدلال في المتصفح: تم إصدار PaddleOCR.js، وهي حزمة SDK الرسمية للاستدلال في المتصفح، وتدعم تشغيل PP-OCRv5 مباشرة داخل المتصفح.

<details> <summary><strong>2026.01.29: إصدار PaddleOCR 3.4.0</strong></summary> * **PaddleOCR-VL-1.5 (نموذج VLM رائد بحجم 0.9B)**: نموذجنا الرائد الأحدث لتحليل المستندات متاح الآن! * **دقة 94.5% على OmniDocBench**: يتفوق على النماذج الكبيرة العامة الرائدة ومحللات المستندات المتخصصة. * **متانة في العالم الواقعي**: أول من يقدم خوارزمية **PP-DocLayoutV3** لتحديد موقع الأشكال غير المنتظمة، مع إتقان 5 سيناريوهات صعبة: *الميل، التشوه، المسح الضوئي، الإضاءة، وتصوير الشاشة*. * **توسيع القدرات**: يدعم الآن **التعرف على الأختام**، و**الكشف عن النصوص**، ويتوسع ليشمل **111 لغة** (بما في ذلك الخط التبتي الصيني والبنغالية). * **إتقان المستندات الطويلة**: يدعم الدمج التلقائي للجداول عبر الصفحات وتحديد العناوين الهرمية. * **جرّبه الآن**: متاح على [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5) أو [موقعنا الرسمي](https://www.paddleocr.com). </details> <details> <summary><strong>2025.10.16: إصدار PaddleOCR 3.3.0</strong></summary>

إصدار PaddleOCR-VL:
- تقديم النموذج:
  - PaddleOCR-VL هو نموذج رائد وموفر للموارد مصمم خصيصاً لتحليل المستندات. مكونه الأساسي هو PaddleOCR-VL-0.9B، وهو نموذج رؤية-لغة (VLM) صغير الحجم لكنه قوي يدمج مشفر بصري ديناميكي الدقة بأسلوب NaViT مع النموذج اللغوي ERNIE-4.5-0.3B لتمكين التعرف الدقيق على العناصر. يدعم هذا النموذج المبتكر 109 لغات بكفاءة ويتفوق في التعرف على العناصر المعقدة (مثل النصوص والجداول والصيغ الرياضية والرسوم البيانية)، مع الحفاظ على الحد الأدنى من استهلاك الموارد. من خلال التقييمات الشاملة على المعايير المرجعية العامة المستخدمة على نطاق واسع والمعايير الداخلية، يحقق PaddleOCR-VL أداءً رائداً في كل من تحليل المستندات على مستوى الصفحة والتعرف على العناصر. يتفوق بشكل كبير على الحلول الحالية، ويُظهر تنافسية قوية أمام نماذج VLM الرائدة، ويقدم سرعات استدلال عالية. هذه المزايا تجعله مناسباً جداً للنشر العملي في السيناريوهات الواقعية. تم إصدار النموذج على HuggingFace. نرحب بالجميع لتنزيله واستخدامه! يمكن العثور على مزيد من المعلومات في PaddleOCR-VL.
- الميزات الأساسية:
  - بنية VLM صغيرة لكنها قوية: نقدم نموذج رؤية-لغة مبتكراً مصمماً خصيصاً للاستدلال الموفر للموارد، يحقق أداءً متميزاً في التعرف على العناصر. من خلال دمج مشفر بصري ديناميكي عالي الدقة بأسلوب NaViT مع النموذج اللغوي خفيف الحجم ERNIE-4.5-0.3B، نعزز بشكل كبير قدرات التعرف وكفاءة فك التشفير. يحافظ هذا الدمج على دقة عالية مع تقليل المتطلبات الحسابية، مما يجعله مناسباً تماماً لتطبيقات معالجة المستندات الفعالة والعملية.
  - أداء رائد في تحليل المستندات: يحقق PaddleOCR-VL أداءً رائداً في كل من تحليل المستندات على مستوى الصفحة والتعرف على العناصر. يتفوق بشكل كبير على الحلول القائمة على خطوط الأنابيب ويُظهر تنافسية قوية أمام نماذج الرؤية-اللغة (VLMs) الرائدة في تحليل المستندات. علاوة على ذلك، يتفوق في التعرف على عناصر المستندات المعقدة، مثل النصوص والجداول والصيغ الرياضية والرسوم البيانية، مما يجعله مناسباً لمجموعة واسعة من أنواع المحتوى الصعبة، بما في ذلك النصوص المكتوبة بخط اليد والمستندات التاريخية. وهذا يجعله متعدد الاستخدامات ومناسباً لمجموعة واسعة من أنواع المستندات والسيناريوهات.
  - دعم متعدد اللغات: يدعم PaddleOCR-VL 109 لغات، تغطي اللغات العالمية الرئيسية، بما في ذلك على سبيل المثال لا الحصر الصينية والإنجليزية واليابانية واللاتينية والكورية، بالإضافة إلى لغات ذات خطوط وبنى مختلفة مثل الروسية (الخط السيريلي) والعربية والهندية (خط ديفاناغاري) والتايلاندية. تعزز هذه التغطية اللغوية الواسعة بشكل كبير من قابلية تطبيق نظامنا في سيناريوهات معالجة المستندات متعددة اللغات والعالمية.
إصدار نموذج التعرف متعدد اللغات PP-OCRv5:
- تحسين دقة وتغطية التعرف على الخط اللاتيني؛ إضافة دعم للأنظمة الكتابية السيريلية والعربية والديفاناغارية والتيلوغية والتاميلية وغيرها، مع تغطية التعرف على 109 لغات. يحتوي النموذج على 2 مليون معامل فقط، وقد زادت دقة بعض النماذج بأكثر من 40% مقارنة بالجيل السابق.

</details> <details> <summary><strong>2025.08.21: إصدار PaddleOCR 3.2.0</strong></summary>

إضافات نموذجية مهمة:
- تقديم التدريب والاستدلال والنشر لنماذج التعرف PP-OCRv5 باللغات الإنجليزية والتايلاندية واليونانية. يقدم نموذج PP-OCRv5 الإنجليزي تحسيناً بنسبة 11% في السيناريوهات الإنجليزية مقارنة بنموذج PP-OCRv5 الرئيسي، مع تحقيق نماذج التعرف التايلاندي واليوناني دقة 82.68% و89.28% على التوالي.
ترقيات قدرات النشر:
- دعم كامل لإصداري إطار عمل PaddlePaddle 3.1.0 و3.1.1.
- ترقية شاملة لحل النشر المحلي بلغة C++ لـ PP-OCRv5، يدعم الآن كلاً من Linux وWindows، مع تكافؤ الميزات ودقة مطابقة لتنفيذ Python.
- يدعم الاستدلال عالي الأداء الآن CUDA 12، ويمكن إجراء الاستدلال باستخدام واجهة Paddle Inference أو ONNX Runtime.
- حل النشر الخدمي عالي الاستقرار أصبح الآن مفتوح المصدر بالكامل، مما يتيح للمستخدمين تخصيص صور Docker وحزم SDK حسب الحاجة.
- يدعم حل النشر الخدمي عالي الاستقرار أيضاً الاستدعاء عبر طلبات HTTP المُنشأة يدوياً، مما يتيح تطوير الشيفرة البرمجية من جانب العميل بأي لغة برمجة.
دعم المعايير المرجعية:
- تدعم جميع خطوط الإنتاج الآن قياس الأداء الدقيق، مما يتيح قياس زمن الاستدلال الشامل بالإضافة إلى بيانات زمن الاستجابة لكل طبقة ووحدة للمساعدة في تحليل الأداء. إليك كيفية إعداد واستخدام ميزة قياس الأداء.
- تم تحديث الوثائق لتشمل المقاييس الرئيسية للتكوينات الشائعة الاستخدام على العتاد الرئيسي، مثل زمن الاستجابة واستخدام الذاكرة، لتوفير مراجع النشر للمستخدمين.
إصلاح الأخطاء:
- حل مشكلة فشل حفظ السجلات أثناء تدريب النموذج.
- ترقية مكون تعزيز البيانات لنماذج الصيغ الرياضية للتوافق مع الإصدارات الأحدث من مكتبة albumentations، وإصلاح تحذيرات الجمود عند استخدام حزمة tokenizers في سيناريوهات متعددة العمليات.
- إصلاح التناقضات في سلوكيات المفاتيح (مثل use_chart_parsing) في ملفات تكوين PP-StructureV3 مقارنة بخطوط الأنابيب الأخرى.
تحسينات أخرى:
- فصل التبعيات الأساسية والاختيارية. التبعيات الأساسية الدنيا فقط مطلوبة للتعرف الأساسي على النصوص؛ يمكن تثبيت التبعيات الإضافية لتحليل المستندات واستخراج المعلومات حسب الحاجة.
- تمكين دعم بطاقات الرسومات NVIDIA RTX من سلسلة 50 على Windows؛ يمكن للمستخدمين الرجوع إلى دليل التثبيت لإصدارات إطار PaddlePaddle المقابلة.
- تدعم نماذج سلسلة PP-OCR الآن إرجاع إحداثيات الأحرف المفردة.
- إضافة مصادر تنزيل النماذج من AIStudio وModelScope وغيرها، مما يتيح للمستخدمين تحديد مصدر تنزيل النماذج.
- إضافة دعم تحويل الرسوم البيانية إلى جداول عبر وحدة PP-Chart2Table.
- تحسين أوصاف الوثائق لتعزيز قابلية الاستخدام.

</details>

سجل التحديثات

</details>

🚀 بداية سريعة

الخطوة 1: جرّب عبر الإنترنت

يوفر الموقع الرسمي لـ PaddleOCR مركز تجربة تفاعلي وواجهات برمجة التطبيقات (APIs) — لا حاجة لأي إعداد، فقط انقر لتجربة الخدمة.

👉 زيارة الموقع الرسمي

الخطوة 2: النشر المحلي

للاستخدام المحلي، يُرجى الرجوع إلى الوثائق التالية بناءً على احتياجاتك:

سلسلة PP-OCR: انظر وثائق PP-OCR
سلسلة PaddleOCR-VL: انظر وثائق PaddleOCR-VL
PP-StructureV3: انظر وثائق PP-StructureV3
المزيد من القدرات: انظر وثائق المزيد من القدرات

🧩 المزيد من الميزات

تحويل النماذج إلى صيغة ONNX: الحصول على نماذج ONNX.
تسريع الاستدلال باستخدام محركات مثل OpenVINO وONNX Runtime وTensorRT، أو إجراء الاستدلال باستخدام نماذج بصيغة ONNX: الاستدلال عالي الأداء.
تسريع الاستدلال باستخدام وحدات GPU متعددة وعمليات متعددة: الاستدلال المتوازي لخطوط الأنابيب.
دمج PaddleOCR في تطبيقات مكتوبة بلغات C++ وC# وJava وغيرها: الخدمة.

🔄 نظرة سريعة على نتائج التنفيذ

PP-OCRv5

PP-StructureV3

PaddleOCR-VL

✨ تابعنا

⭐ قم بتمييز هذا المستودع بنجمة لمتابعة التحديثات والإصدارات الجديدة المثيرة، بما في ذلك إمكانيات التعرف الضوئي على الحروف وتحليل المستندات القوية! ⭐

👩‍👩‍👧‍👦 المجتمع

حساب PaddlePaddle الرسمي على WeChat	انضم إلى مجموعة النقاش التقني

</div>

😃 مشاريع رائعة تستفيد من PaddleOCR

لم يكن PaddleOCR ليصل إلى ما هو عليه اليوم لولا مجتمعه المذهل! 💗 شكر جزيل لجميع شركائنا القدامى والمتعاونين الجدد وكل من بذل شغفه في PaddleOCR — سواء ذكرنا اسمه أم لا. دعمكم هو وقود حماسنا!

اسم المشروع	الوصف
Dify <a href="https://github.com/langgenius/dify"></a>	منصة جاهزة للإنتاج لتطوير سير العمل الوكيلي.
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>	محرك RAG قائم على الفهم العميق للمستندات.
pathway <a href="https://github.com/pathwaycom/pathway"></a>	إطار عمل Python ETL لمعالجة التدفقات والتحليلات الآنية وخطوط أنابيب النماذج اللغوية الكبيرة وRAG.
MinerU <a href="https://github.com/opendatalab/MinerU"></a>	أداة تحويل المستندات متعددة الأنواع إلى Markdown.
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>	برنامج OCR مجاني، مفتوح المصدر، للمعالجة الدفعية دون اتصال بالإنترنت.
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>	تطبيق سطح مكتب يدعم مزودي نماذج لغوية كبيرة متعددين.
haystack<a href="https://github.com/deepset-ai/haystack"></a>	إطار عمل لتنظيم الذكاء الاصطناعي لبناء تطبيقات نماذج لغوية كبيرة قابلة للتخصيص وجاهزة للإنتاج.
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>	OmniParser: أداة تحليل الشاشة لوكيل واجهة المستخدم الرسومية القائم على الرؤية البحتة.
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>	الأسئلة والأجوبة المبنية على أي شيء.
تعرّف على المزيد من المشاريع	المزيد من المشاريع المبنية على PaddleOCR

</div>

👩‍👩‍👧‍👦 المساهمون

🌟 النجوم

📄 الرخصة

هذا المشروع مُصدر بموجب رخصة Apache 2.0.

🎓 الاستشهاد

bibtex

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report},
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595},
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528},
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing},
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957},
}