🚀 さらに高速でシンプルな大規模スクレイピング方法（わずか5行のコード）をお探しですか？ ScrapeGraphAI.com の拡張版をご覧ください！🚀

🕷️ ScrapeGraphAI: 一度のクロールで完結

ScrapeGraphAIは、大規模言語モデルと直接グラフロジックを使用して、ウェブサイトやローカルドキュメント（XML、HTML、JSON、Markdownなど）のクローリングパイプラインを作成するPythonライブラリです。

クロールしたい情報をライブラリに伝えるだけで、残りはすべてライブラリが行います！

🚀 統合

ScrapeGraphAIは、人気のあるフレームワークやツールとのシームレスな統合を提供し、スクレイピング機能を強化します。PythonまたはNode.jsで構築する場合でも、LLMフレームワークを使用する場合でも、ノーコードプラットフォームで作業する場合でも、包括的な統合オプションを提供しています。

詳細情報は以下のリンクで確認できます

統合：

API: ドキュメント
SDKs: Python, Node
LLMフレームワーク: Langchain, Llama Index, Crew.ai, Agno, CamelAI
ローコードフレームワーク: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
MCPサーバー: リンク

🚀 クイックインストール

Scrapegraph-aiの参照ページはPyPIの公式サイトで見ることができます: pypi。

bash

pip install scrapegraphai

# 重要（ウェブサイトコンテンツの取得用）
playwright install

注意: 他のライブラリとの競合を避けるため、このライブラリは仮想環境でのインストールを推奨します 🐱

💻 使い方

ウェブサイト（またはローカルファイル）から情報を抽出するために使用できる複数の標準スクレイピングパイプラインがあります。

最も一般的なのは SmartScraperGraph で、ユーザープロンプトとソースURLが与えられた場合に単一ページから情報を抽出します。

python

from scrapegraphai.graphs import SmartScraperGraph

# スクレイピングパイプラインの設定を定義
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# SmartScraperGraphインスタンスを作成
smart_scraper_graph = SmartScraperGraph(
    prompt="ウェブページから有用な情報を抽出してください。会社の説明、創設者、ソーシャルメディアリンクを含めてください",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# パイプラインを実行
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTE] OpenAIやその他のモデルの場合は、llm設定を変更するだけです！
python
graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

出力は次のような辞書になります：

python

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

複数のページから情報を抽出したり、Pythonスクリプトを生成したり、さらにはオーディオファイルを生成したりするために使用できる他のパイプラインもあります。

パイプライン名	説明
SmartScraperGraph	ユーザープロンプトと入力ソースのみが必要な単一ページスクレイパー。
SearchGraph	検索エンジンの上位n個の検索結果から情報を抽出する複数ページスクレイパー。
SpeechGraph	ウェブサイトから情報を抽出し、オーディオファイルを生成する単一ページスクレイパー。
ScriptCreatorGraph	ウェブサイトから情報を抽出し、Pythonスクリプトを生成する単一ページスクレイパー。
SmartScraperMultiGraph	単一のプロンプトとソースのリストが与えられた場合に複数のページから情報を抽出する複数ページスクレイパー。
ScriptCreatorMultiGraph	複数のページとソースから情報を抽出するためのPythonスクリプトを生成する複数ページスクレイパー。

これらのグラフのそれぞれには、マルチバージョンがあります。これにより、LLMの呼び出しを並列で行うことができます。

OpenAI、Groq、Azure、GeminiなどのAPIを介して、またはOllamaを使用してローカルモデルを使用して、異なるLLMを使用することができます。

ローカルモデルを使用する場合は、Ollamaがインストールされていること、およびollama pullコマンドを使用してモデルをダウンロードしていることを確認してください。

📖 ドキュメント

ScrapeGraphAIのドキュメントはこちらで見ることができます。 Docusaurusのバージョンもご覧ください。

🤝 貢献

貢献を歓迎し、Discordサーバーで改善や提案について話し合います！

貢献ガイドをご覧ください。

🔗 ScrapeGraph API & SDKs

システムにScrapeGraphを統合するための迅速なソリューションをお探しの場合は、強力なAPIをこちら！でご確認ください。

PythonとNode.jsの両方でSDKを提供しており、プロジェクトに簡単に統合できます。以下をご覧ください：

SDK	言語	GitHubリンク
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

公式APIドキュメントはこちらで見ることができます。

🔥 ベンチマーク

Firecrawlベンチマーク Firecrawl benchmarkによると、ScrapeGraphは市場で最高のフェッチャーです！

📈 テレメトリ

パッケージの品質とユーザーエクスペリエンスを向上させるために、匿名の使用メトリクスを収集しています。このデータは、改善の優先順位付けと互換性の確保に役立ちます。オプトアウトする場合は、環境変数SCRAPEGRAPHAI_TELEMETRY_ENABLED=falseを設定してください。詳細については、こちらのドキュメントを参照してください。

❤️ 貢献者

🎓 引用

研究目的で当社のライブラリを使用する場合は、以下の参考文献を引用してください：

text

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {大規模言語モデルを活用したスクレイピング用のPythonライブラリ}
  }

作者

	連絡先
Marco Vinciguerra
Lorenzo Padoan

📜 ライセンス

ScrapeGraphAIはMITライセンスの下で提供されています。詳細はLICENSEファイルをご覧ください。

謝辞

プロジェクトの貢献者とオープンソースコミュニティのサポートに感謝します。
ScrapeGraphAIはデータ探索と研究目的のみに使用されます。このライブラリの不正使用については一切責任を負いません。

Made with ❤️ by ScrapeGraph AI

Scarf tracking