docs/russian.md
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">ScrapeGraphAI - это библиотека для веб-скрейпинга на Python, которая использует LLM и прямую графовую логику для создания скрейпинговых пайплайнов для веб-сайтов и локальных документов (XML, HTML, JSON, Markdown и т.д.).
Просто укажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас!
<p align="center"> </p>ScrapeGraphAI предлагает бесшовную интеграцию с популярными фреймворками и инструментами для улучшения ваших возможностей скрейпинга. Независимо от того, создаете ли вы приложения на Python или Node.js, используете ли LLM-фреймворки или работаете с платформами без кода, мы предоставляем комплексные варианты интеграции.
Вы можете найти больше информации по следующей ссылке
Интеграции:
Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: pypi.
pip install scrapegraphai
# ВАЖНО (для получения содержимого веб-сайтов)
playwright install
Примечание: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱
Существует несколько стандартных скрейпинговых пайплайнов, которые можно использовать для извлечения информации с веб-сайта (или локального файла).
Наиболее распространенным является SmartScraperGraph, который извлекает информацию с одной страницы при наличии пользовательского запроса и исходного URL.
from scrapegraphai.graphs import SmartScraperGraph
# Определите конфигурацию для скрейпингового пайплайна
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# Создайте экземпляр SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Извлеките полезную информацию с веб-страницы, включая описание деятельности компании, основателей и ссылки на социальные сети",
source="https://scrapegraphai.com/",
config=graph_config
)
# Запустите пайплайн
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTE] Для OpenAI и других моделей вам просто нужно изменить конфигурацию llm!
pythongraph_config = { "llm": { "api_key": "YOUR_OPENAI_API_KEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
Выходные данные будут представлять собой словарь, например:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
Существуют другие пайплайны, которые можно использовать для извлечения информации с нескольких страниц, генерации Python-скриптов или даже генерации аудиофайлов.
| Название пайплайна | Описание |
|---|---|
| SmartScraperGraph | Скрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода. |
| SearchGraph | Многопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы. |
| SpeechGraph | Скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл. |
| ScriptCreatorGraph | Скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует Python-скрипт. |
| SmartScraperMultiGraph | Многопользовательский скрейпер, который извлекает информацию с нескольких страниц при наличии одного запроса и списка источников. |
| ScriptCreatorMultiGraph | Многопользовательский скрейпер, который генерирует Python-скрипт для извлечения информации с нескольких страниц и источников. |
Для каждого из этих графов существует мульти-версия. Это позволяет выполнять вызовы LLM параллельно.
Можно использовать различные LLM через API, такие как OpenAI, Groq, Azure и Gemini, или локальные модели, используя Ollama.
Не забудьте установить Ollama и загрузить модели, используя команду ollama pull, если вы хотите использовать локальные модели.
Документация для ScrapeGraphAI доступна здесь. Посмотрите также Docusaurus здесь.
Не стесняйтесь вносить свой вклад и присоединяйтесь к нашему серверу Discord, чтобы обсудить с нами улучшения и дать нам предложения!
Пожалуйста, ознакомьтесь с руководством по участию.
Если вы ищете быстрое решение для интеграции ScrapeGraph в вашу систему, ознакомьтесь с нашим мощным API здесь!
Мы предлагаем SDK для Python и Node.js, что упрощает интеграцию в ваши проекты. Ознакомьтесь с ними ниже:
| SDK | Язык | GitHub Ссылка |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
Официальная документация API доступна здесь.
Согласно бенчмарку Firecrawl Firecrawl benchmark, ScrapeGraph является лучшим фетчером на рынке!
Мы собираем анонимные метрики использования для повышения качества нашего пакета и пользовательского опыта. Данные помогают нам определять приоритеты улучшений и обеспечивать совместимость. Если вы хотите отказаться, установите переменную окружения SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Для получения дополнительной информации обратитесь к документации здесь.
Если вы использовали нашу библиотеку для научных исследований, пожалуйста, укажите нас в следующем виде:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {Библиотека на Python для скрейпинга с использованием больших языковых моделей}
}
| Контактная информация | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле LICENSE.
Made with ❤️ by ScrapeGraph AI