Back to Scrapegraph Ai

🕷️ ScrapeGraphAI: Você Só Faz Scraping Uma Vez

docs/portuguese.md

2.0.013.1 KB
Original Source

🚀 Procurando uma forma ainda mais rápida e simples de fazer scraping em escala (apenas 5 linhas de código)? Confira nossa versão aprimorada em ScrapeGraphAI.com! 🚀


🕷️ ScrapeGraphAI: Você Só Faz Scraping Uma Vez

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">

ScrapeGraphAI é uma biblioteca Python de web scraping que usa LLM e lógica de grafo direto para criar pipelines de scraping para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).

Basta dizer qual informação você quer extrair e a biblioteca fará isso por você!

<p align="center"> </p>

🚀 Integrações

O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de scraping. Seja você construindo com Python ou Node.js, usando frameworks LLM ou trabalhando com plataformas no-code, temos você coberto com nossas opções abrangentes de integração.

Você pode encontrar mais informações no seguinte link

Integrações:

🚀 Instalação Rápida

A página de referência para Scrapegraph-ai está disponível na página oficial do PyPI: pypi.

bash
pip install scrapegraphai

# IMPORTANTE (para buscar conteúdo de sites)
playwright install

Nota: é recomendado instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱

💻 Uso

Existem múltiplos pipelines de scraping padrão que podem ser usados para extrair informações de um site (ou arquivo local).

O mais comum é o SmartScraperGraph, que extrai informações de uma única página dado um prompt do usuário e uma URL de origem.

python
from scrapegraphai.graphs import SmartScraperGraph

# Defina a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Extraia informações úteis da página web, incluindo uma descrição do que a empresa faz, fundadores e links de redes sociais",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTE] Para OpenAI e outros modelos, você só precisa mudar a configuração do llm!

python
graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

A saída será um dicionário como o seguinte:

python
{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Existem outros pipelines que podem ser usados para extrair informações de múltiplas páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.

Nome do PipelineDescrição
SmartScraperGraphScraper de página única que só precisa de um prompt do usuário e uma fonte de entrada.
SearchGraphScraper de múltiplas páginas que extrai informações dos n principais resultados de pesquisa de um mecanismo de busca.
SpeechGraphScraper de página única que extrai informações de um site e gera um arquivo de áudio.
ScriptCreatorGraphScraper de página única que extrai informações de um site e gera um script Python.
SmartScraperMultiGraphScraper de múltiplas páginas que extrai informações de múltiplas páginas dado um único prompt e uma lista de fontes.
ScriptCreatorMultiGraphScraper de múltiplas páginas que gera um script Python para extrair informações de múltiplas páginas e fontes.

Para cada um desses grafos existe a versão multi. Isso permite fazer chamadas do LLM em paralelo.

É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.

Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se você quiser usar modelos locais.

📖 Documentação

A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.

🤝 Contribuindo

Sinta-se à vontade para contribuir e junte-se ao nosso servidor Discord para discutir melhorias e nos dar sugestões!

Por favor, veja as diretrizes de contribuição.

🔗 ScrapeGraph API & SDKs

Se você está procurando uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!

Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:

SDKLinguagemLink do GitHub
Python SDKPythonscrapegraph-py
Node.js SDKNode.jsscrapegraph-js

A Documentação Oficial da API pode ser encontrada aqui.

🔥 Benchmark

De acordo com o benchmark do Firecrawl Firecrawl benchmark, o ScrapeGraph é o melhor fetcher do mercado!

📈 Telemetria

Coletamos métricas de uso anônimas para melhorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se você deseja optar por não participar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.

❤️ Contribuidores

🎓 Citações

Se você usou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:

text
  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {Uma biblioteca Python para scraping aproveitando grandes modelos de linguagem}
  }

Autores

Informações de Contato
Marco Vinciguerra
Lorenzo Padoan

📜 Licença

O ScrapeGraphAI está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais informações.

Agradecimentos

  • Gostaríamos de agradecer a todos os contribuidores do projeto e à comunidade de código aberto pelo seu apoio.
  • O ScrapeGraphAI destina-se apenas a fins de exploração de dados e pesquisa. Não nos responsabilizamos por qualquer uso indevido da biblioteca.

Made with ❤️ by ScrapeGraph AI

Scarf tracking