docs/japanese.md
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">ScrapeGraphAIは、大規模言語モデルと直接グラフロジックを使用して、ウェブサイトやローカルドキュメント(XML、HTML、JSON、Markdownなど)のクローリングパイプラインを作成するPythonライブラリです。
クロールしたい情報をライブラリに伝えるだけで、残りはすべてライブラリが行います!
<p align="center"> </p>ScrapeGraphAIは、人気のあるフレームワークやツールとのシームレスな統合を提供し、スクレイピング機能を強化します。PythonまたはNode.jsで構築する場合でも、LLMフレームワークを使用する場合でも、ノーコードプラットフォームで作業する場合でも、包括的な統合オプションを提供しています。
詳細情報は以下のリンクで確認できます
統合:
Scrapegraph-aiの参照ページはPyPIの公式サイトで見ることができます: pypi。
pip install scrapegraphai
# 重要(ウェブサイトコンテンツの取得用)
playwright install
注意: 他のライブラリとの競合を避けるため、このライブラリは仮想環境でのインストールを推奨します 🐱
ウェブサイト(またはローカルファイル)から情報を抽出するために使用できる複数の標準スクレイピングパイプラインがあります。
最も一般的なのは SmartScraperGraph で、ユーザープロンプトとソースURLが与えられた場合に単一ページから情報を抽出します。
from scrapegraphai.graphs import SmartScraperGraph
# スクレイピングパイプラインの設定を定義
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraphインスタンスを作成
smart_scraper_graph = SmartScraperGraph(
prompt="ウェブページから有用な情報を抽出してください。会社の説明、創設者、ソーシャルメディアリンクを含めてください",
source="https://scrapegraphai.com/",
config=graph_config
)
# パイプラインを実行
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTE] OpenAIやその他のモデルの場合は、llm設定を変更するだけです!
pythongraph_config = { "llm": { "api_key": "YOUR_OPENAI_API_KEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
出力は次のような辞書になります:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
複数のページから情報を抽出したり、Pythonスクリプトを生成したり、さらにはオーディオファイルを生成したりするために使用できる他のパイプラインもあります。
| パイプライン名 | 説明 |
|---|---|
| SmartScraperGraph | ユーザープロンプトと入力ソースのみが必要な単一ページスクレイパー。 |
| SearchGraph | 検索エンジンの上位n個の検索結果から情報を抽出する複数ページスクレイパー。 |
| SpeechGraph | ウェブサイトから情報を抽出し、オーディオファイルを生成する単一ページスクレイパー。 |
| ScriptCreatorGraph | ウェブサイトから情報を抽出し、Pythonスクリプトを生成する単一ページスクレイパー。 |
| SmartScraperMultiGraph | 単一のプロンプトとソースのリストが与えられた場合に複数のページから情報を抽出する複数ページスクレイパー。 |
| ScriptCreatorMultiGraph | 複数のページとソースから情報を抽出するためのPythonスクリプトを生成する複数ページスクレイパー。 |
これらのグラフのそれぞれには、マルチバージョンがあります。これにより、LLMの呼び出しを並列で行うことができます。
OpenAI、Groq、Azure、GeminiなどのAPIを介して、またはOllamaを使用してローカルモデルを使用して、異なるLLMを使用することができます。
ローカルモデルを使用する場合は、Ollamaがインストールされていること、およびollama pullコマンドを使用してモデルをダウンロードしていることを確認してください。
ScrapeGraphAIのドキュメントはこちらで見ることができます。 Docusaurusのバージョンもご覧ください。
貢献を歓迎し、Discordサーバーで改善や提案について話し合います!
貢献ガイドをご覧ください。
システムにScrapeGraphを統合するための迅速なソリューションをお探しの場合は、強力なAPIをこちら!でご確認ください。
PythonとNode.jsの両方でSDKを提供しており、プロジェクトに簡単に統合できます。以下をご覧ください:
| SDK | 言語 | GitHubリンク |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
公式APIドキュメントはこちらで見ることができます。
Firecrawlベンチマーク Firecrawl benchmarkによると、ScrapeGraphは市場で最高のフェッチャーです!
パッケージの品質とユーザーエクスペリエンスを向上させるために、匿名の使用メトリクスを収集しています。このデータは、改善の優先順位付けと互換性の確保に役立ちます。オプトアウトする場合は、環境変数SCRAPEGRAPHAI_TELEMETRY_ENABLED=falseを設定してください。詳細については、こちらのドキュメントを参照してください。
研究目的で当社のライブラリを使用する場合は、以下の参考文献を引用してください:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {大規模言語モデルを活用したスクレイピング用のPythonライブラリ}
}
| 連絡先 | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
ScrapeGraphAIはMITライセンスの下で提供されています。詳細はLICENSEファイルをご覧ください。
Made with ❤️ by ScrapeGraph AI