🚀 Procurando uma forma ainda mais rápida e simples de fazer scraping em escala (apenas 5 linhas de código)? Confira nossa versão aprimorada em ScrapeGraphAI.com! 🚀

🕷️ ScrapeGraphAI: Você Só Faz Scraping Uma Vez

ScrapeGraphAI é uma biblioteca Python de web scraping que usa LLM e lógica de grafo direto para criar pipelines de scraping para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).

Basta dizer qual informação você quer extrair e a biblioteca fará isso por você!

🚀 Integrações

O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de scraping. Seja você construindo com Python ou Node.js, usando frameworks LLM ou trabalhando com plataformas no-code, temos você coberto com nossas opções abrangentes de integração.

Você pode encontrar mais informações no seguinte link

Integrações:

API: Documentação
SDKs: Python, Node
Frameworks LLM: Langchain, Llama Index, Crew.ai, Agno, CamelAI
Frameworks Low-code: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
Servidor MCP: Link

🚀 Instalação Rápida

A página de referência para Scrapegraph-ai está disponível na página oficial do PyPI: pypi.

bash

pip install scrapegraphai

# IMPORTANTE (para buscar conteúdo de sites)
playwright install

Nota: é recomendado instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱

💻 Uso

Existem múltiplos pipelines de scraping padrão que podem ser usados para extrair informações de um site (ou arquivo local).

O mais comum é o SmartScraperGraph, que extrai informações de uma única página dado um prompt do usuário e uma URL de origem.

python

from scrapegraphai.graphs import SmartScraperGraph

# Defina a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Extraia informações úteis da página web, incluindo uma descrição do que a empresa faz, fundadores e links de redes sociais",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTE] Para OpenAI e outros modelos, você só precisa mudar a configuração do llm!

python

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

A saída será um dicionário como o seguinte:

python

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Existem outros pipelines que podem ser usados para extrair informações de múltiplas páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.

Nome do Pipeline	Descrição
SmartScraperGraph	Scraper de página única que só precisa de um prompt do usuário e uma fonte de entrada.
SearchGraph	Scraper de múltiplas páginas que extrai informações dos n principais resultados de pesquisa de um mecanismo de busca.
SpeechGraph	Scraper de página única que extrai informações de um site e gera um arquivo de áudio.
ScriptCreatorGraph	Scraper de página única que extrai informações de um site e gera um script Python.
SmartScraperMultiGraph	Scraper de múltiplas páginas que extrai informações de múltiplas páginas dado um único prompt e uma lista de fontes.
ScriptCreatorMultiGraph	Scraper de múltiplas páginas que gera um script Python para extrair informações de múltiplas páginas e fontes.

Para cada um desses grafos existe a versão multi. Isso permite fazer chamadas do LLM em paralelo.

É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.

Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se você quiser usar modelos locais.

📖 Documentação

A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.

🤝 Contribuindo

Sinta-se à vontade para contribuir e junte-se ao nosso servidor Discord para discutir melhorias e nos dar sugestões!

Por favor, veja as diretrizes de contribuição.

🔗 ScrapeGraph API & SDKs

Se você está procurando uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!

Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:

SDK	Linguagem	Link do GitHub
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

A Documentação Oficial da API pode ser encontrada aqui.

🔥 Benchmark

De acordo com o benchmark do Firecrawl Firecrawl benchmark, o ScrapeGraph é o melhor fetcher do mercado!

📈 Telemetria

Coletamos métricas de uso anônimas para melhorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se você deseja optar por não participar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.

❤️ Contribuidores

🎓 Citações

Se você usou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:

text

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {Uma biblioteca Python para scraping aproveitando grandes modelos de linguagem}
  }

Autores

	Informações de Contato
Marco Vinciguerra
Lorenzo Padoan

📜 Licença

O ScrapeGraphAI está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais informações.

Agradecimentos

Gostaríamos de agradecer a todos os contribuidores do projeto e à comunidade de código aberto pelo seu apoio.
O ScrapeGraphAI destina-se apenas a fins de exploração de dados e pesquisa. Não nos responsabilizamos por qualquer uso indevido da biblioteca.

Made with ❤️ by ScrapeGraph AI

Scarf tracking