README Es - Paddleocr

<div align="center"> <p> </p> <h3>Kit de OCR líder mundial y motor de IA para documentos</h3>

</div>

PaddleOCR convierte documentos e imágenes en datos estructurados y listos para LLM (JSON/Markdown) con una precisión líder en la industria. Con más de 70 000 estrellas y la confianza de proyectos de primer nivel como Dify, RAGFlow y Cherry Studio, PaddleOCR es la base para construir aplicaciones inteligentes de RAG y Agentic.

🚀 Características principales

📄 Análisis inteligente de documentos (listo para LLM)

Transformando contenido visual complejo en datos estructurados para la era de los LLM.

SOTA Document VLM: Con PaddleOCR-VL-1.5 (0,9B), el modelo de visión y lenguaje ligero líder de la industria para el análisis de documentos. Sobresale en el análisis de documentos complejos en 5 grandes desafíos del "mundo real": deformación, escaneo, fotografía de pantalla, iluminación y documentos inclinados, con salidas estructuradas en formatos Markdown y JSON.
Conversión con reconocimiento de estructura: Impulsado por PP-StructureV3, convierte sin problemas PDFs e imágenes complejas en Markdown o JSON. A diferencia de los modelos de la serie PaddleOCR-VL, proporciona información de coordenadas más detallada, incluyendo coordenadas de celdas de tablas, coordenadas de texto y más.
Eficiencia lista para producción: Logra precisión de nivel comercial con una huella ultrapequeña. Supera a numerosas soluciones de código cerrado en benchmarks públicos, manteniéndose eficiente en recursos para despliegue en el borde o en la nube.

🔍 Reconocimiento universal de texto (Scene OCR)

El estándar de oro mundial para la detección de texto multilingüe de alta velocidad.

Compatibilidad con más de 100 idiomas: Reconocimiento nativo de una amplia biblioteca global. Nuestra solución de modelo único PP-OCRv5 maneja con elegancia documentos mixtos multilingües (chino, inglés, japonés, pinyin, etc.).
Dominio de elementos complejos: Más allá del reconocimiento de texto estándar, admitimos la detección de texto en escenas naturales en una amplia gama de entornos, incluyendo documentos de identidad, vistas de calles, libros y componentes industriales.
Salto en rendimiento: PP-OCRv5 ofrece una mejora de precisión del 13% respecto a versiones anteriores, manteniendo la "eficiencia extrema" por la que PaddleOCR es famoso.

🛠️ Ecosistema centrado en el desarrollador

Integración perfecta: La opción preferida para el ecosistema de agentes de IA, con integración profunda en Dify, RAGFlow, Pathway y Cherry Studio.
Motor de datos para LLM: Un pipeline completo para construir conjuntos de datos de alta calidad, proporcionando un "Motor de Datos" sostenible para el ajuste fino de modelos de lenguaje grandes.
Despliegue en un clic: Compatible con diversos backends de hardware (GPU NVIDIA, CPU Intel, XPU Kunlunxin y diversos aceleradores de IA).

📣 Actualizaciones recientes

🔥 PaddleOCR v3.5.0: backends de inferencia más flexibles y salida documental más rica

Backends de inferencia más flexibles: cambia sin problemas entre grafo estático de Paddle, grafo dinámico de Paddle y Transformers. PaddleOCR está ahora profundamente integrado con el ecosistema de Hugging Face, y 20 modelos principales admiten Transformers como backend de inferencia.
Documentos de Office a Markdown: convierte formatos de documentos comunes como Word, Excel y PowerPoint a Markdown.
Exportación de resultados a DOCX: las series PaddleOCR-VL, PP-StructureV3 y PP-DocTranslation ahora admiten exportar los resultados de análisis a DOCX para verlos y editarlos cómodamente en Microsoft Word.
SDK oficial de inferencia en navegador: se lanzó PaddleOCR.js, el SDK oficial de inferencia en navegador, que permite ejecutar PP-OCRv5 directamente en el navegador.

<details> <summary><strong>2026.01.29: Lanzamiento de PaddleOCR 3.4.0</strong></summary> * **PaddleOCR-VL-1.5 (SOTA 0,9B VLM)**: ¡Nuestro último modelo insignia para el análisis de documentos ya está disponible! * **94,5% de precisión en OmniDocBench**: Superando a los mejores modelos generales de gran escala y a los analizadores de documentos especializados. * **Robustez en el mundo real**: El primero en introducir el algoritmo **PP-DocLayoutV3** para el posicionamiento de formas irregulares, dominando 5 escenarios difíciles: *inclinación, deformación, escaneo, iluminación y fotografía de pantalla*. * **Expansión de capacidades**: Ahora admite **reconocimiento de sellos**, **detección de texto** y se expande a **111 idiomas** (incluyendo el tibetano de China y el bengalí). * **Dominio de documentos largos**: Admite la fusión automática de tablas entre páginas e identificación jerárquica de encabezados. * **Pruébalo ahora**: Disponible en [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5) o en nuestro [Sitio web oficial](https://www.paddleocr.com). </details> <details> <summary><strong>2025.10.16: Lanzamiento de PaddleOCR 3.3.0</strong></summary>

Lanzamiento de PaddleOCR-VL:
- Introducción al modelo:
  - PaddleOCR-VL es un modelo SOTA eficiente en recursos diseñado específicamente para el análisis de documentos. Su componente principal es PaddleOCR-VL-0.9B, un modelo de visión y lenguaje (VLM) compacto pero potente que integra un codificador visual de resolución dinámica al estilo NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para permitir un reconocimiento preciso de elementos. Este innovador modelo admite eficientemente 109 idiomas y sobresale en el reconocimiento de elementos complejos (p. ej., texto, tablas, fórmulas y gráficos), mientras mantiene un consumo mínimo de recursos. A través de evaluaciones exhaustivas en benchmarks públicos ampliamente utilizados y benchmarks internos, PaddleOCR-VL logra un rendimiento SOTA tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elemento. Supera significativamente a las soluciones existentes, exhibe una fuerte competitividad frente a los VLM de primer nivel y ofrece velocidades de inferencia rápidas. Estas fortalezas lo hacen altamente adecuado para el despliegue práctico en escenarios del mundo real. El modelo ha sido publicado en HuggingFace. ¡Todos son bienvenidos a descargarlo y usarlo! Más información de introducción se puede encontrar en PaddleOCR-VL.
- Características principales:
  - Arquitectura VLM compacta pero potente: Presentamos un novedoso modelo de visión y lenguaje diseñado específicamente para una inferencia eficiente en recursos, logrando un rendimiento sobresaliente en el reconocimiento de elementos. Al integrar un codificador visual dinámico de alta resolución al estilo NaViT con el modelo de lenguaje ligero ERNIE-4.5-0.3B, mejoramos significativamente las capacidades de reconocimiento y la eficiencia de decodificación del modelo. Esta integración mantiene una alta precisión mientras reduce las demandas computacionales, lo que lo hace adecuado para aplicaciones de procesamiento de documentos eficientes y prácticas.
  - Rendimiento SOTA en análisis de documentos: PaddleOCR-VL logra un rendimiento de vanguardia tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elemento. Supera significativamente a las soluciones basadas en pipeline existentes y exhibe una fuerte competitividad frente a los modelos de visión y lenguaje (VLM) líderes en el análisis de documentos. Además, sobresale en el reconocimiento de elementos de documentos complejos, como texto, tablas, fórmulas y gráficos, lo que lo hace adecuado para una amplia gama de tipos de contenido desafiantes, incluyendo texto manuscrito y documentos históricos. Esto lo hace altamente versátil y adecuado para una amplia gama de tipos de documentos y escenarios.
  - Soporte multilingüe: PaddleOCR-VL admite 109 idiomas, cubriendo los principales idiomas globales, incluyendo, entre otros, chino, inglés, japonés, latín y coreano, así como idiomas con diferentes escrituras y estructuras, como el ruso (escritura cirílica), el árabe, el hindi (escritura devanagari) y el tailandés. Esta amplia cobertura de idiomas mejora sustancialmente la aplicabilidad de nuestro sistema a escenarios de procesamiento de documentos multilingües y globalizados.
Lanzamiento del modelo de reconocimiento multilingüe PP-OCRv5:
- Se mejoró la precisión y cobertura del reconocimiento de escritura latina; se añadió compatibilidad con sistemas de escritura cirílico, árabe, devanagari, telugu, tamil y otros, cubriendo el reconocimiento de 109 idiomas. El modelo tiene solo 2M de parámetros, y la precisión de algunos modelos ha aumentado más de un 40% en comparación con la generación anterior.

</details> <details> <summary><strong>2025.08.21: Lanzamiento de PaddleOCR 3.2.0</strong></summary>

Adiciones significativas de modelos:
- Se introdujeron entrenamiento, inferencia y despliegue para modelos de reconocimiento PP-OCRv5 en inglés, tailandés y griego. El modelo PP-OCRv5 en inglés ofrece una mejora del 11% en escenarios en inglés en comparación con el modelo principal PP-OCRv5, con los modelos de reconocimiento en tailandés y griego alcanzando precisiones del 82,68% y 89,28%, respectivamente.
Mejoras en las capacidades de despliegue:
- Compatibilidad total con las versiones 3.1.0 y 3.1.1 del framework PaddlePaddle.
- Actualización integral de la solución de despliegue local en C++ de PP-OCRv5, que ahora admite tanto Linux como Windows, con paridad de características y precisión idéntica a la implementación en Python.
- La inferencia de alto rendimiento ahora admite CUDA 12, y la inferencia puede realizarse utilizando los backends Paddle Inference u ONNX Runtime.
- La solución de despliegue orientado a servicios de alta estabilidad ahora es completamente de código abierto, lo que permite a los usuarios personalizar imágenes Docker y SDKs según sea necesario.
- La solución de despliegue orientado a servicios de alta estabilidad también admite la invocación mediante solicitudes HTTP construidas manualmente, lo que permite el desarrollo de código del lado del cliente en cualquier lenguaje de programación.
Soporte de benchmarks:
- Todas las líneas de producción ahora admiten benchmarking detallado, permitiendo medir el tiempo de inferencia de extremo a extremo, así como datos de latencia por capa y por módulo para ayudar en el análisis de rendimiento. Aquí se explica cómo configurar y usar la función de benchmark.
- La documentación se ha actualizado para incluir métricas clave para configuraciones de uso común en hardware convencional, como la latencia de inferencia y el uso de memoria, proporcionando referencias de despliegue para los usuarios.
Corrección de errores:
- Se resolvió el problema del guardado fallido de registros durante el entrenamiento del modelo.
- Se actualizó el componente de aumento de datos para modelos de fórmulas para compatibilidad con versiones más recientes de la dependencia albumentations, y se corrigieron advertencias de bloqueo al usar el paquete tokenizers en escenarios multiproceso.
- Se corrigieron inconsistencias en los comportamientos de los interruptores (p. ej., use_chart_parsing) en los archivos de configuración de PP-StructureV3 en comparación con otros pipelines.
Otras mejoras:
- Se separaron las dependencias principales y opcionales. Solo se requieren dependencias principales mínimas para el reconocimiento de texto básico; las dependencias adicionales para el análisis de documentos y la extracción de información se pueden instalar según sea necesario.
- Se habilitó la compatibilidad con tarjetas gráficas NVIDIA RTX de la serie 50 en Windows; los usuarios pueden consultar la guía de instalación para conocer las versiones correspondientes del framework PaddlePaddle.
- Los modelos de la serie PP-OCR ahora admiten la devolución de coordenadas de caracteres individuales.
- Se añadieron fuentes de descarga de modelos de AIStudio, ModelScope y otras, permitiendo a los usuarios especificar la fuente para las descargas de modelos.
- Se añadió compatibilidad con la conversión de gráficos a tablas a través del módulo PP-Chart2Table.
- Se optimizaron las descripciones de la documentación para mejorar la usabilidad.

</details>

Historial de cambios

</details>

🚀 Inicio rápido

Paso 1: Pruébalo en línea

El sitio web oficial de PaddleOCR ofrece un Centro de experiencia interactivo y APIs — sin necesidad de configuración, solo un clic para experimentar.

👉 Visitar el sitio web oficial

Paso 2: Despliegue local

Para uso local, consulte la siguiente documentación según sus necesidades:

Serie PP-OCR: Consulte la Documentación de PP-OCR
Serie PaddleOCR-VL: Consulte la Documentación de PaddleOCR-VL
PP-StructureV3: Consulte la Documentación de PP-StructureV3
Más capacidades: Consulte la Documentación de más capacidades

🧩 Más características

Convertir modelos al formato ONNX: Obtención de modelos ONNX.
Acelerar la inferencia usando motores como OpenVINO, ONNX Runtime, TensorRT, o realizar inferencia usando modelos en formato ONNX: Inferencia de alto rendimiento.
Acelerar la inferencia usando múltiples GPU y múltiples procesos: Inferencia paralela para pipelines.
Integrar PaddleOCR en aplicaciones escritas en C++, C#, Java, etc.: Serving.

🔄 Resumen rápido de los resultados de ejecución

PP-OCRv5

PP-StructureV3

PaddleOCR-VL

✨ Mantente al día

⭐ ¡Dale una estrella a este repositorio para estar al tanto de emocionantes actualizaciones y nuevos lanzamientos, incluyendo potentes capacidades de OCR y análisis de documentos! ⭐

👩‍👩‍👧‍👦 Comunidad

Cuenta oficial de PaddlePaddle en WeChat	Únete al grupo de discusión técnica

</div>

😃 Proyectos destacados que utilizan PaddleOCR

¡PaddleOCR no estaría donde está hoy sin su increíble comunidad! 💗 Un enorme agradecimiento a todos nuestros socios de larga data, nuevos colaboradores y a todos los que han volcado su pasión en PaddleOCR — los hayamos mencionado o no. ¡Su apoyo alimenta nuestro fuego!

Nombre del proyecto	Descripción
Dify <a href="https://github.com/langgenius/dify"></a>	Plataforma lista para producción para el desarrollo de flujos de trabajo agénticos.
RAGFlow <a href="https://github.com/infiniflow/ragflow"></a>	Motor RAG basado en la comprensión profunda de documentos.
pathway <a href="https://github.com/pathwaycom/pathway"></a>	Framework ETL de Python para procesamiento de flujos, análisis en tiempo real, pipelines de LLM y RAG.
MinerU <a href="https://github.com/opendatalab/MinerU"></a>	Herramienta de conversión de documentos de múltiples tipos a Markdown.
Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a>	Software de OCR offline por lotes, gratuito y de código abierto.
cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a>	Cliente de escritorio compatible con múltiples proveedores de LLM.
haystack<a href="https://github.com/deepset-ai/haystack"></a>	Framework de orquestación de IA para construir aplicaciones LLM personalizables y listas para producción.
OmniParser<a href="https://github.com/microsoft/OmniParser"></a>	OmniParser: herramienta de análisis de pantalla para agentes GUI basados únicamente en visión.
QAnything<a href="https://github.com/netease-youdao/QAnything"></a>	Preguntas y respuestas basadas en cualquier cosa.
Ver más proyectos	Más proyectos basados en PaddleOCR

</div>

👩‍👩‍👧‍👦 Colaboradores

🌟 Estrellas

📄 Licencia

Este proyecto se publica bajo la licencia Apache 2.0.

🎓 Cita

bibtex

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report}, 
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595}, 
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

@misc{cui2026paddleocrvl15multitask09bvlm,
      title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2026},
      eprint={2601.21957},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.21957}, 
}