docs/chinese.md
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
<p align="center"> <a href="https://trendshift.io/repositories/9761" target="_blank"></a> <p align="center">ScrapeGraphAI 是一个网络爬虫 Python 库,使用大型语言模型和直接图逻辑为网站和本地文档(XML,HTML,JSON,Markdown 等)创建爬取管道。
只需告诉库您想提取哪些信息,它将为您完成!
<p align="center"> </p>ScrapeGraphAI 提供与流行框架和工具的无缝集成,以增强您的抓取能力。无论您使用 Python 还是 Node.js 构建,使用 LLM 框架,还是使用无代码平台,我们都为您提供全面的集成选项。
您可以在以下链接找到更多信息
集成:
Scrapegraph-ai 的参考页面可以在 PyPI 的官方网站上找到: pypi。
pip install scrapegraphai
# 重要(用于获取网站内容)
playwright install
注意: 建议在虚拟环境中安装该库,以避免与其他库发生冲突 🐱
有多种标准抓取管道可用于从网站(或本地文件)提取信息。
最常见的是 SmartScraperGraph,它在给定用户提示和源 URL 的情况下从单个页面提取信息。
from scrapegraphai.graphs import SmartScraperGraph
# 定义抓取管道的配置
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# 创建 SmartScraperGraph 实例
smart_scraper_graph = SmartScraperGraph(
prompt="从网页中提取有用信息,包括公司描述、创始人和社交媒体链接",
source="https://scrapegraphai.com/",
config=graph_config
)
# 运行管道
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTE] 对于 OpenAI 和其他模型,您只需要更改 llm 配置!
pythongraph_config = { "llm": { "api_key": "YOUR_OPENAI_API_KEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
输出将是一个类似以下的字典:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
还有其他管道可用于从多个页面提取信息、生成 Python 脚本,甚至生成音频文件。
| 管道名称 | 描述 |
|---|---|
| SmartScraperGraph | 单页抓取器,只需要用户提示和输入源。 |
| SearchGraph | 多页抓取器,从搜索引擎的前 n 个搜索结果中提取信息。 |
| SpeechGraph | 单页抓取器,从网站提取信息并生成音频文件。 |
| ScriptCreatorGraph | 单页抓取器,从网站提取信息并生成 Python 脚本。 |
| SmartScraperMultiGraph | 多页抓取器,在给定单个提示和源列表的情况下从多个页面提取信息。 |
| ScriptCreatorMultiGraph | 多页抓取器,生成用于从多个页面和源提取信息的 Python 脚本。 |
对于这些图中的每一个,都有多版本。它允许并行调用 LLM。
可以通过 API 使用不同的 LLM,例如 OpenAI、Groq、Azure 和 Gemini,或使用 Ollama 的本地模型。
如果您想使用本地模型,请记住安装 Ollama 并使用 ollama pull 命令下载模型。
ScrapeGraphAI 的文档可以在这里找到。 还可以查看 Docusaurus 这里。
欢迎贡献并加入我们的 Discord 服务器与我们讨论改进和提出建议!
请参阅贡献指南。
如果您正在寻找快速解决方案来将 ScrapeGraph 集成到您的系统中,请查看我们的强大 API 这里!
我们提供 Python 和 Node.js 的 SDK,使您可以轻松集成到您的项目中。请在下面查看:
| SDK | 语言 | GitHub 链接 |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
官方 API 文档可以在这里找到。
根据 Firecrawl 基准测试 Firecrawl benchmark,ScrapeGraph 是市场上最好的抓取工具!
我们收集匿名使用指标以增强我们包的质量和用户体验。这些数据帮助我们确定改进的优先级并确保兼容性。如果您希望退出,请设置环境变量 SCRAPEGRAPHAI_TELEMETRY_ENABLED=false。有关更多信息,请参阅这里的文档。
如果您将我们的库用于研究目的,请使用以下参考文献引用我们:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {一个利用大型语言模型进行爬取的 Python 库}
}
| 联系信息 | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
ScrapeGraphAI 采用 MIT 许可证。更多信息请查看 LICENSE 文件。
Made with ❤️ by ScrapeGraph AI