docs/portuguese.md
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">ScrapeGraphAI é uma biblioteca Python de web scraping que usa LLM e lógica de grafo direto para criar pipelines de scraping para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).
Basta dizer qual informação você quer extrair e a biblioteca fará isso por você!
<p align="center"> </p>O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de scraping. Seja você construindo com Python ou Node.js, usando frameworks LLM ou trabalhando com plataformas no-code, temos você coberto com nossas opções abrangentes de integração.
Você pode encontrar mais informações no seguinte link
Integrações:
A página de referência para Scrapegraph-ai está disponível na página oficial do PyPI: pypi.
pip install scrapegraphai
# IMPORTANTE (para buscar conteúdo de sites)
playwright install
Nota: é recomendado instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱
Existem múltiplos pipelines de scraping padrão que podem ser usados para extrair informações de um site (ou arquivo local).
O mais comum é o SmartScraperGraph, que extrai informações de uma única página dado um prompt do usuário e uma URL de origem.
from scrapegraphai.graphs import SmartScraperGraph
# Defina a configuração para o pipeline de scraping
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Extraia informações úteis da página web, incluindo uma descrição do que a empresa faz, fundadores e links de redes sociais",
source="https://scrapegraphai.com/",
config=graph_config
)
# Execute o pipeline
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTE] Para OpenAI e outros modelos, você só precisa mudar a configuração do llm!
pythongraph_config = { "llm": { "api_key": "YOUR_OPENAI_API_KEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
A saída será um dicionário como o seguinte:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
Existem outros pipelines que podem ser usados para extrair informações de múltiplas páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.
| Nome do Pipeline | Descrição |
|---|---|
| SmartScraperGraph | Scraper de página única que só precisa de um prompt do usuário e uma fonte de entrada. |
| SearchGraph | Scraper de múltiplas páginas que extrai informações dos n principais resultados de pesquisa de um mecanismo de busca. |
| SpeechGraph | Scraper de página única que extrai informações de um site e gera um arquivo de áudio. |
| ScriptCreatorGraph | Scraper de página única que extrai informações de um site e gera um script Python. |
| SmartScraperMultiGraph | Scraper de múltiplas páginas que extrai informações de múltiplas páginas dado um único prompt e uma lista de fontes. |
| ScriptCreatorMultiGraph | Scraper de múltiplas páginas que gera um script Python para extrair informações de múltiplas páginas e fontes. |
Para cada um desses grafos existe a versão multi. Isso permite fazer chamadas do LLM em paralelo.
É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.
Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se você quiser usar modelos locais.
A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.
Sinta-se à vontade para contribuir e junte-se ao nosso servidor Discord para discutir melhorias e nos dar sugestões!
Por favor, veja as diretrizes de contribuição.
Se você está procurando uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!
Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:
| SDK | Linguagem | Link do GitHub |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
A Documentação Oficial da API pode ser encontrada aqui.
De acordo com o benchmark do Firecrawl Firecrawl benchmark, o ScrapeGraph é o melhor fetcher do mercado!
Coletamos métricas de uso anônimas para melhorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se você deseja optar por não participar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.
Se você usou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {Uma biblioteca Python para scraping aproveitando grandes modelos de linguagem}
}
| Informações de Contato | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
O ScrapeGraphAI está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais informações.
Made with ❤️ by ScrapeGraph AI