This model was released on 2025-03-24 and added to Hugging Face Transformers on 2026-04-30.

PP-FormulaNet

Overview

PP-FormulaNet-L and PP-FormulaNet_plus-L are part of a series of dedicated lightweight models for table structure recognition, focusing on accurately recognizing table structures in documents and natural scenes. For more details about the SLANet series model, please refer to the official documentation.

Usage

Single input inference

The example below demonstrates how to detect text with PP-PP-FormulaNet_plus-L using the [AutoModel].

from io import BytesIO

import httpx
from PIL import Image
from transformers import AutoProcessor, AutoModelForImageTextToText

model_path = "PaddlePaddle/PP-FormulaNet_plus-L_safetensors" # or "PaddlePaddle/PP-FormulaNet-L_safetensors"
model = AutoModelForImageTextToText.from_pretrained(model_path, device_map="auto")
processor = AutoProcessor.from_pretrained(model_path)

image_url = "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_formula_rec_001.png"
image = Image.open(BytesIO(httpx.get(image_url).content)).convert("RGB")
inputs = processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)
result = processor.post_process(outputs)
print(result)

</hfoption> </hfoptions>

PPFormulaNetConfig

[[autodoc]] PPFormulaNetConfig

PPFormulaNetForConditionalGeneration

[[autodoc]] PPFormulaNetForConditionalGeneration

PPFormulaNetTextModel

[[autodoc]] PPFormulaNetTextModel

PPFormulaNetVisionModel

[[autodoc]] PPFormulaNetVisionModel

PPFormulaNetModel

[[autodoc]] PPFormulaNetModel

PPFormulaNetTextConfig

[[autodoc]] PPFormulaNetTextConfig

PPFormulaNetVisionConfig

[[autodoc]] PPFormulaNetVisionConfig

PPFormulaNetImageProcessor

[[autodoc]] PPFormulaNetImageProcessor

PPFormulaNetProcessor

[[autodoc]] PPFormulaNetProcessor