readme/README_es.md
English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Français | Русский | Español | العربية
<!-- icon --> </div>PaddleOCR convierte documentos e imágenes en datos estructurados y listos para LLM (JSON/Markdown) con una precisión líder en la industria. Con más de 70 000 estrellas y la confianza de proyectos de primer nivel como Dify, RAGFlow y Cherry Studio, PaddleOCR es la base para construir aplicaciones inteligentes de RAG y Agentic.
Transformando contenido visual complejo en datos estructurados para la era de los LLM.
El estándar de oro mundial para la detección de texto multilingüe de alta velocidad.
PaddleOCR-VL, PP-StructureV3 y PP-DocTranslation ahora admiten exportar los resultados de análisis a DOCX para verlos y editarlos cómodamente en Microsoft Word.PaddleOCR.js, el SDK oficial de inferencia en navegador, que permite ejecutar PP-OCRv5 directamente en el navegador.Lanzamiento de PaddleOCR-VL:
Introducción al modelo:
Características principales:
Lanzamiento del modelo de reconocimiento multilingüe PP-OCRv5:
Adiciones significativas de modelos:
Mejoras en las capacidades de despliegue:
Soporte de benchmarks:
Corrección de errores:
use_chart_parsing) en los archivos de configuración de PP-StructureV3 en comparación con otros pipelines.Otras mejoras:
El sitio web oficial de PaddleOCR ofrece un Centro de experiencia interactivo y APIs — sin necesidad de configuración, solo un clic para experimentar.
👉 Visitar el sitio web oficial
Para uso local, consulte la siguiente documentación según sus necesidades:
⭐ ¡Dale una estrella a este repositorio para estar al tanto de emocionantes actualizaciones y nuevos lanzamientos, incluyendo potentes capacidades de OCR y análisis de documentos! ⭐
<div align="center"> <p> </p> </div>| Cuenta oficial de PaddlePaddle en WeChat | Únete al grupo de discusión técnica |
|---|---|
¡PaddleOCR no estaría donde está hoy sin su increíble comunidad! 💗 Un enorme agradecimiento a todos nuestros socios de larga data, nuevos colaboradores y a todos los que han volcado su pasión en PaddleOCR — los hayamos mencionado o no. ¡Su apoyo alimenta nuestro fuego!
<div align="center">| Nombre del proyecto | Descripción |
|---|---|
| Dify <a href="https://github.com/langgenius/dify"></a> | Plataforma lista para producción para el desarrollo de flujos de trabajo agénticos. |
| RAGFlow <a href="https://github.com/infiniflow/ragflow"></a> | Motor RAG basado en la comprensión profunda de documentos. |
| pathway <a href="https://github.com/pathwaycom/pathway"></a> | Framework ETL de Python para procesamiento de flujos, análisis en tiempo real, pipelines de LLM y RAG. |
| MinerU <a href="https://github.com/opendatalab/MinerU"></a> | Herramienta de conversión de documentos de múltiples tipos a Markdown. |
| Umi-OCR <a href="https://github.com/hiroi-sora/Umi-OCR"></a> | Software de OCR offline por lotes, gratuito y de código abierto. |
| cherry-studio <a href="https://github.com/CherryHQ/cherry-studio"></a> | Cliente de escritorio compatible con múltiples proveedores de LLM. |
| haystack<a href="https://github.com/deepset-ai/haystack"></a> | Framework de orquestación de IA para construir aplicaciones LLM personalizables y listas para producción. |
| OmniParser<a href="https://github.com/microsoft/OmniParser"></a> | OmniParser: herramienta de análisis de pantalla para agentes GUI basados únicamente en visión. |
| QAnything<a href="https://github.com/netease-youdao/QAnything"></a> | Preguntas y respuestas basadas en cualquier cosa. |
| Ver más proyectos | Más proyectos basados en PaddleOCR |
Este proyecto se publica bajo la licencia Apache 2.0.
@misc{cui2025paddleocr30technicalreport,
title={PaddleOCR 3.0 Technical Report},
author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
year={2025},
eprint={2507.05595},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2507.05595},
}
@misc{cui2025paddleocrvlboostingmultilingualdocument,
title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
year={2025},
eprint={2510.14528},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2510.14528},
}
@misc{cui2026paddleocrvl15multitask09bvlm,
title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing},
author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
year={2026},
eprint={2601.21957},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2601.21957},
}