README Ru - Paddleocr

<div align="center"> <p> </p> <h3>Ведущий в мире инструментарий OCR и движок Document AI</h3>

</div>

PaddleOCR преобразует документы и изображения в структурированные данные, готовые для использования с LLM (JSON/Markdown), с точностью мирового уровня. Имея более 70 тысяч звёзд и доверие таких ведущих проектов, как Dify, RAGFlow и Cherry Studio, PaddleOCR является основой для создания интеллектуальных приложений RAG и Agentic.

🚀 Ключевые возможности

📄 Интеллектуальный разбор документов (готово для LLM)

Преобразование сложных визуальных данных в структурированные данные для эпохи LLM.

SOTA Document VLM: В основе — PaddleOCR-VL-1.5 (0.9B), ведущая в отрасли лёгкая визуально-языковая модель для разбора документов. Она превосходно справляется с разбором сложных документов в 5 основных «реальных» сценариях: деформация, сканирование, фотосъёмка экрана, неравномерное освещение и перекошенные документы, формируя структурированный вывод в форматах Markdown и JSON.
Конвертация с учётом структуры: На основе PP-StructureV3 — бесшовное преобразование сложных PDF-файлов и изображений в Markdown или JSON. В отличие от моделей серии PaddleOCR-VL, предоставляет более детальную координатную информацию, включая координаты ячеек таблиц, координаты текста и многое другое.
Эффективность промышленного уровня: Коммерческая точность при минимальном объёме ресурсов. Превосходит многочисленные закрытые решения в публичных тестах, оставаясь ресурсоэффективным для развёртывания на периферийных устройствах и в облаке.

🔍 Универсальное распознавание текста (Scene OCR)

Мировой золотой стандарт высокоскоростного многоязычного обнаружения текста.

Поддержка 100+ языков: Нативное распознавание обширной глобальной библиотеки. Наше единое решение PP-OCRv5 элегантно обрабатывает многоязычные смешанные документы (китайский, английский, японский, пиньинь и др.).
Мастерство работы со сложными элементами: Помимо стандартного распознавания текста, поддерживается обнаружение текста в естественных сценах в широком диапазоне условий, включая удостоверения личности, уличные виды, книги и промышленные компоненты.
Скачок производительности: PP-OCRv5 обеспечивает повышение точности на 13% по сравнению с предыдущими версиями, сохраняя «экстремальную эффективность», за которую PaddleOCR получил широкую известность.

🛠️ Экосистема, ориентированная на разработчиков

Бесшовная интеграция: Первый выбор для экосистемы AI Agent — глубокая интеграция с Dify, RAGFlow, Pathway и Cherry Studio.
Маховик данных для LLM: Полный конвейер для создания высококачественных наборов данных, обеспечивающий устойчивый «Data Engine» для тонкой настройки больших языковых моделей.
Развёртывание в один клик: Поддержка различных аппаратных бэкендов (NVIDIA GPU, Intel CPU, Kunlunxin XPU и разнообразные AI-ускорители).

📣 Последние обновления

🔥 Выпуск PaddleOCR v3.5.0: более гибкие бэкенды инференса и более богатый вывод документов

Гибкое переключение бэкендов инференса: поддерживается бесшовное переключение между статическим графом Paddle, динамическим графом Paddle и Transformers. PaddleOCR теперь глубоко интегрирован с экосистемой Hugging Face, а 20 ключевых моделей поддерживают Transformers в качестве бэкенда инференса.
Преобразование офисных документов в Markdown: поддерживается преобразование распространённых форматов документов, таких как Word, Excel и PowerPoint, в Markdown.
Экспорт результатов разбора в DOCX: серии PaddleOCR-VL, PP-StructureV3 и PP-DocTranslation теперь поддерживают экспорт результатов разбора в формат DOCX для удобного просмотра и редактирования в Microsoft Word.
Официальный браузерный SDK инференса: выпущен официальный браузерный SDK инференса PaddleOCR.js, который поддерживает запуск PP-OCRv5 прямо в браузере.

<details> <summary><strong>2026.01.29: Выпуск PaddleOCR 3.4.0</strong></summary> * **PaddleOCR-VL-1.5 (SOTA 0.9B VLM)**: Наша новейшая флагманская модель для разбора документов уже доступна! * **94,5% точность на OmniDocBench**: Превосходит ведущие универсальные большие модели и специализированные парсеры документов. * **Устойчивость к реальным условиям**: Первая реализация алгоритма **PP-DocLayoutV3** для позиционирования нестандартных форм, освоившая 5 сложных сценариев: *перекос, деформация, сканирование, неравномерное освещение и фотосъёмка экрана*. * **Расширение возможностей**: Теперь поддерживается **распознавание печатей**, **обнаружение текста** и расширение до **111 языков** (включая тибетское письмо Китая и бенгальский язык). * **Работа с длинными документами**: Поддержка автоматического объединения таблиц на нескольких страницах и иерархической идентификации заголовков. * **Попробуйте сейчас**: Доступно на [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5) или на нашем [официальном сайте](https://www.paddleocr.com). </details> <details> <summary><strong>2025.10.16: Выпуск PaddleOCR 3.3.0</strong></summary>

Выпуск PaddleOCR-VL:
- Описание модели:
  - PaddleOCR-VL — это SOTA-модель с эффективным использованием ресурсов, разработанная специально для разбора документов. Её ключевым компонентом является PaddleOCR-VL-0.9B — компактная, но мощная визуально-языковая модель (VLM), объединяющая динамический визуальный энкодер с переменным разрешением в стиле NaViT с языковой моделью ERNIE-4.5-0.3B для точного распознавания элементов. Эта инновационная модель эффективно поддерживает 109 языков и превосходно справляется с распознаванием сложных элементов (например, текста, таблиц, формул и диаграмм), сохраняя минимальное потребление ресурсов. По результатам комплексных оценок на широко используемых публичных тестах и внутренних тестах PaddleOCR-VL достигает SOTA-производительности как в разборе документов на уровне страниц, так и в распознавании элементов. Она значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с ведущими VLM и обеспечивает высокую скорость вывода. Эти преимущества делают её высокопригодной для практического развёртывания в реальных сценариях. Модель опубликована на HuggingFace. Приглашаем всех скачать и использовать! Дополнительная информация доступна в разделе PaddleOCR-VL.
- Основные возможности:
  - Компактная, но мощная архитектура VLM: Представлена новая визуально-языковая модель, специально разработанная для ресурсоэффективного вывода, достигающая выдающейся производительности в распознавании элементов. Благодаря интеграции динамического высокоразрешающего визуального энкодера в стиле NaViT с лёгкой языковой моделью ERNIE-4.5-0.3B мы значительно повысили возможности распознавания и эффективность декодирования модели. Эта интеграция сохраняет высокую точность при снижении вычислительных требований, что делает её хорошо подходящей для эффективной и практической обработки документов.
  - SOTA-производительность в разборе документов: PaddleOCR-VL достигает передовой производительности как в разборе документов на уровне страниц, так и в распознавании элементов. Она значительно превосходит существующие конвейерные решения и демонстрирует высокую конкурентоспособность по сравнению с ведущими визуально-языковыми моделями (VLM) в разборе документов. Кроме того, она превосходно справляется с распознаванием сложных элементов документов, таких как текст, таблицы, формулы и диаграммы, что делает её пригодной для широкого спектра сложных типов контента, включая рукописный текст и исторические документы. Это делает её высоко универсальной и подходящей для широкого спектра типов и сценариев документов.
  - Многоязычная поддержка: PaddleOCR-VL поддерживает 109 языков, охватывая основные мировые языки, включая, но не ограничиваясь китайским, английским, японским, латинским и корейским, а также языки с различными системами письма и структурами, такие как русский (кириллица), арабский, хинди (письмо деванагари) и тайский. Широкий охват языков существенно повышает применимость нашей системы к многоязычным и глобализированным сценариям обработки документов.
Выпуск PP-OCRv5 — многоязычной модели распознавания:
- Улучшена точность и охват распознавания латинского письма; добавлена поддержка кириллицы, арабского, деванагари, телугу, тамильского и других языковых систем, охватывающих распознавание 109 языков. Модель имеет всего 2 МБ параметров, а точность некоторых моделей выросла более чем на 40% по сравнению с предыдущим поколением.

</details> <details> <summary><strong>2025.08.21: Выпуск PaddleOCR 3.2.0</strong></summary>

Значительные дополнения моделей:
- Введены обучение, вывод и развёртывание моделей распознавания PP-OCRv5 для английского, тайского и греческого языков. Модель PP-OCRv5 для английского языка обеспечивает улучшение на 11% в английских сценариях по сравнению с основной моделью PP-OCRv5, при этом модели распознавания тайского и греческого языков достигают точности 82,68% и 89,28% соответственно.
Улучшения возможностей развёртывания:
- Полная поддержка версий фреймворка PaddlePaddle 3.1.0 и 3.1.1.
- Комплексное обновление решения для локального развёртывания PP-OCRv5 на C++, теперь поддерживающего как Linux, так и Windows, с полным соответствием функций и идентичной точностью реализации на Python.
- Высокопроизводительный вывод теперь поддерживает CUDA 12, а вывод может выполняться с использованием бэкендов Paddle Inference или ONNX Runtime.
- Решение для высоконадёжного сервисного развёртывания теперь полностью открыто, позволяя пользователям при необходимости настраивать образы Docker и SDK.
- Решение для высоконадёжного сервисного развёртывания также поддерживает вызов через вручную сформированные HTTP-запросы, что позволяет разрабатывать клиентский код на любом языке программирования.
Поддержка бенчмарков:
- Все производственные конвейеры теперь поддерживают детализированное бенчмаркирование, позволяя измерять сквозное время вывода, а также задержки на уровне отдельных слоёв и модулей для анализа производительности. Здесь описано, как настроить и использовать функцию бенчмарка.
- Документация обновлена и включает ключевые метрики для часто используемых конфигураций на основном оборудовании, такие как задержка вывода и использование памяти, предоставляя справочные данные для развёртывания.
Исправления ошибок:
- Устранена проблема с неудачным сохранением журналов во время обучения модели.
- Обновлён компонент аугментации данных для моделей формул для совместимости с более новыми версиями зависимости albumentations, а также исправлены предупреждения о взаимоблокировке при использовании пакета tokenizers в многопроцессорных сценариях.
- Исправлены несоответствия в поведении переключателей (например, use_chart_parsing) в файлах конфигурации PP-StructureV3 по сравнению с другими конвейерами.
Прочие улучшения:
- Разделены основные и дополнительные зависимости. Для базового распознавания текста требуются только минимальные основные зависимости; дополнительные зависимости для разбора документов и извлечения информации могут быть установлены по мере необходимости.
- Включена поддержка видеокарт NVIDIA RTX серии 50 на Windows; пользователи могут обратиться к руководству по установке для получения информации о соответствующих версиях фреймворка PaddlePaddle.
- Модели серии PP-OCR теперь поддерживают возврат координат отдельных символов.
- Добавлены источники загрузки моделей AIStudio, ModelScope и другие, позволяющие пользователям указывать источник для загрузки моделей.
- Добавлена поддержка преобразования диаграмм в таблицы через модуль PP-Chart2Table.
- Оптимизированы описания в документации для улучшения удобства использования.

</details>

История изменений

</details>

🚀 Быстрый старт

Шаг 1: Попробуйте онлайн

Официальный сайт PaddleOCR предоставляет интерактивный Центр опыта и API — без необходимости настройки, просто один клик для ознакомления.

👉 Посетить официальный сайт

Шаг 2: Локальное развёртывание

Для локального использования обратитесь к следующей документации в соответствии с вашими потребностями:

Серия PP-OCR: См. Документацию PP-OCR
Серия PaddleOCR-VL: См. Документацию PaddleOCR-VL
PP-StructureV3: См. Документацию PP-StructureV3
Дополнительные возможности: См. Документацию по дополнительным возможностям

🧩 Дополнительные возможности

Конвертация моделей в формат ONNX: Получение моделей ONNX.
Ускорение вывода с использованием движков OpenVINO, ONNX Runtime, TensorRT или выполнение вывода с использованием моделей в формате ONNX: Высокопроизводительный вывод.
Ускорение вывода с использованием нескольких GPU и многопроцессорной обработки: Параллельный вывод для конвейеров.
Интеграция PaddleOCR в приложения, написанные на C++, C#, Java и др.: Сервисное развёртывание.

🔄 Краткий обзор результатов выполнения

PP-OCRv5

PP-StructureV3

PaddleOCR-VL

✨ Следите за обновлениями

⭐ Добавьте этот репозиторий в избранное, чтобы быть в курсе захватывающих обновлений и новых выпусков, включая мощные возможности OCR и разбора документов! ⭐

👩‍👩‍👧‍👦 Сообщество

Официальный аккаунт PaddlePaddle в WeChat	Присоединиться к группе технических обсуждений

</div>

😃 Замечательные проекты, использующие PaddleOCR

PaddleOCR не достиг бы своего нынешнего уровня без своего невероятного сообщества! 💗 Огромная благодарность всем нашим давним партнёрам, новым соавторам и всем, кто вложил свою душу в PaddleOCR — независимо от того, упомянуты вы здесь или нет. Ваша поддержка питает наш огонь!

Название проекта	Описание
Dify <a href="https://github.com/langgenius/dify"></a>	Готовая к производству платформа для разработки агентных рабочих процессов.
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>	RAG-движок на основе глубокого понимания документов.
pathway <a href="https://github.com/pathwaycom/pathway"></a>	Python ETL-фреймворк для потоковой обработки, аналитики в реальном времени, конвейеров LLM и RAG.
MinerU <a href="https://github.com/opendatalab/MinerU"></a>	Инструмент для конвертации документов различных типов в Markdown.
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>	Бесплатное программное обеспечение для пакетного офлайн-OCR с открытым исходным кодом.
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>	Настольный клиент с поддержкой нескольких провайдеров LLM.
haystack<a href="https://github.com/deepset-ai/haystack"></a>	Фреймворк оркестрации AI для создания настраиваемых, готовых к производству приложений LLM.
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>	OmniParser: инструмент разбора экрана для агента GUI на основе чистого зрения.
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>	Вопросы и ответы на основе чего угодно.
Узнать о других проектах	Другие проекты на основе PaddleOCR

</div>

👩‍👩‍👧‍👦 Участники

🌟 Звёзды

📄 Лицензия

Этот проект выпущен под лицензией Apache 2.0.

🎓 Цитирование

bibtex

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report}, 
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595}, 
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957}, 
}