Back to Scrapegraph Ai

🕷️ ScrapeGraphAI: Вы скрейпите только один раз

docs/russian.md

2.0.016.6 KB
Original Source

🚀 Ищете еще более быстрый и простой способ масштабного скрейпинга (всего 5 строк кода)? Ознакомьтесь с нашей улучшенной версией на ScrapeGraphAI.com! 🚀


🕷️ ScrapeGraphAI: Вы скрейпите только один раз

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">

ScrapeGraphAI - это библиотека для веб-скрейпинга на Python, которая использует LLM и прямую графовую логику для создания скрейпинговых пайплайнов для веб-сайтов и локальных документов (XML, HTML, JSON, Markdown и т.д.).

Просто укажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас!

<p align="center"> </p>

🚀 Интеграции

ScrapeGraphAI предлагает бесшовную интеграцию с популярными фреймворками и инструментами для улучшения ваших возможностей скрейпинга. Независимо от того, создаете ли вы приложения на Python или Node.js, используете ли LLM-фреймворки или работаете с платформами без кода, мы предоставляем комплексные варианты интеграции.

Вы можете найти больше информации по следующей ссылке

Интеграции:

🚀 Быстрая установка

Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: pypi.

bash
pip install scrapegraphai

# ВАЖНО (для получения содержимого веб-сайтов)
playwright install

Примечание: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱

💻 Использование

Существует несколько стандартных скрейпинговых пайплайнов, которые можно использовать для извлечения информации с веб-сайта (или локального файла).

Наиболее распространенным является SmartScraperGraph, который извлекает информацию с одной страницы при наличии пользовательского запроса и исходного URL.

python
from scrapegraphai.graphs import SmartScraperGraph

# Определите конфигурацию для скрейпингового пайплайна
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Создайте экземпляр SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Извлеките полезную информацию с веб-страницы, включая описание деятельности компании, основателей и ссылки на социальные сети",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Запустите пайплайн
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTE] Для OpenAI и других моделей вам просто нужно изменить конфигурацию llm!

python
graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

Выходные данные будут представлять собой словарь, например:

python
{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Существуют другие пайплайны, которые можно использовать для извлечения информации с нескольких страниц, генерации Python-скриптов или даже генерации аудиофайлов.

Название пайплайнаОписание
SmartScraperGraphСкрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода.
SearchGraphМногопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы.
SpeechGraphСкрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл.
ScriptCreatorGraphСкрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует Python-скрипт.
SmartScraperMultiGraphМногопользовательский скрейпер, который извлекает информацию с нескольких страниц при наличии одного запроса и списка источников.
ScriptCreatorMultiGraphМногопользовательский скрейпер, который генерирует Python-скрипт для извлечения информации с нескольких страниц и источников.

Для каждого из этих графов существует мульти-версия. Это позволяет выполнять вызовы LLM параллельно.

Можно использовать различные LLM через API, такие как OpenAI, Groq, Azure и Gemini, или локальные модели, используя Ollama.

Не забудьте установить Ollama и загрузить модели, используя команду ollama pull, если вы хотите использовать локальные модели.

📖 Документация

Документация для ScrapeGraphAI доступна здесь. Посмотрите также Docusaurus здесь.

🤝 Участие

Не стесняйтесь вносить свой вклад и присоединяйтесь к нашему серверу Discord, чтобы обсудить с нами улучшения и дать нам предложения!

Пожалуйста, ознакомьтесь с руководством по участию.

🔗 ScrapeGraph API & SDKs

Если вы ищете быстрое решение для интеграции ScrapeGraph в вашу систему, ознакомьтесь с нашим мощным API здесь!

Мы предлагаем SDK для Python и Node.js, что упрощает интеграцию в ваши проекты. Ознакомьтесь с ними ниже:

SDKЯзыкGitHub Ссылка
Python SDKPythonscrapegraph-py
Node.js SDKNode.jsscrapegraph-js

Официальная документация API доступна здесь.

🔥 Бенчмарк

Согласно бенчмарку Firecrawl Firecrawl benchmark, ScrapeGraph является лучшим фетчером на рынке!

📈 Телеметрия

Мы собираем анонимные метрики использования для повышения качества нашего пакета и пользовательского опыта. Данные помогают нам определять приоритеты улучшений и обеспечивать совместимость. Если вы хотите отказаться, установите переменную окружения SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Для получения дополнительной информации обратитесь к документации здесь.

❤️ Разработчики программного обеспечения

🎓 Цитаты

Если вы использовали нашу библиотеку для научных исследований, пожалуйста, укажите нас в следующем виде:

text
  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {Библиотека на Python для скрейпинга с использованием больших языковых моделей}
  }

Авторы

Контактная информация
Marco Vinciguerra
Lorenzo Padoan

📜 Лицензия

ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле LICENSE.

Благодарности

  • Мы хотели бы поблагодарить всех участников проекта и сообщество с открытым исходным кодом за их поддержку.
  • ScrapeGraphAI предназначен только для исследования данных и научных целей. Мы не несем ответственности за неправильное использование библиотеки.

Made with ❤️ by ScrapeGraph AI

Scarf tracking