docs/features/academic/google_scholar.md
文献调研是学术研究的第一步。在 Google Scholar 上搜索到一堆相关论文后,您需要逐个点开阅读摘要、判断相关性、记录引用信息——这个过程既费时又枯燥。GPT Academic 的谷歌学术检索助手能够自动解析您的搜索结果页面,批量提取论文信息并翻译摘要,让文献筛选效率提升数倍。
这个功能的核心价值在于将繁琐的手动操作自动化。给系统一个 Google Scholar 搜索结果页面的 URL,它会完成以下工作:
信息提取:自动解析页面中所有论文的标题、作者、引用次数和摘要片段。即使 Google Scholar 页面只显示摘要的开头部分,系统也会尝试从 arxiv 获取完整摘要。
arxiv 增强:对于每篇论文,系统会在 arxiv 数据库中搜索匹配项。如果找到匹配(标题相似度超过 90%),将获取 arxiv 上的完整摘要,而不是 Google Scholar 上被截断的版本。
结构化输出:提取的信息会通过 AI 整理成清晰的 Markdown 表格,包含中英文标题、作者、引用数、是否在 arxiv 上公开、以及中文摘要翻译。这种格式非常适合直接复制到您的文献综述笔记中。
使用此功能前,请确保:
beautifulsoup4 和 arxiv 库如果尚未安装依赖,可以通过以下命令安装:
pip install --upgrade beautifulsoup4 arxiv
!!! warning "关于 Google 反爬虫" Google Scholar 有比较严格的反爬虫机制。如果您在短时间内频繁使用此功能,可能会触发验证码或临时封禁。建议适度使用,避免连续大量请求。
首先,在浏览器中访问 Google Scholar,输入您的搜索关键词进行搜索。搜索完成后,复制浏览器地址栏中的完整 URL。
这个 URL 通常是这样的格式:
https://scholar.google.com/scholar?hl=en&q=transformer+attention+mechanism
或者如果您进行了更复杂的筛选(如按年份),URL 会包含更多参数。无论哪种形式,直接复制完整 URL 即可。
在 GPT Academic 的输入框中粘贴刚才复制的 Google Scholar URL,然后在函数插件区找到 学术 分类,点击 谷歌学术检索助手 插件按钮。
<!-- IMAGE: feat_google_scholar_01.png --> <!-- 描述: 谷歌学术检索助手的使用流程 --> <!-- 标注: ① 输入框中粘贴的 Google Scholar 搜索结果页 URL ② 函数插件区"学术"分类下的"谷歌学术检索助手"按钮 ③ 对话区显示的论文信息提取进度 --> <!-- 尺寸建议: 1000px -->点击插件后,系统开始工作。处理过程分为三个阶段:
页面解析:系统首先获取并解析 Google Scholar 搜索结果页面,提取每篇论文的基本信息。每解析到一篇论文,对话区会实时显示论文标题和 arxiv 匹配状态。
arxiv 匹配:对于每篇论文,系统会在 arxiv 上搜索是否有匹配的条目。如果找到匹配项,将使用 arxiv 的完整摘要替代 Google Scholar 的截断版本。这个过程可能需要一些时间,因为要避免触发 Google 的反爬虫机制,系统会在请求之间插入随机延迟。
AI 整理翻译:收集到所有论文信息后,系统会将它们分批发送给 AI,生成结构化的表格输出。每批处理 5 篇论文,避免单次请求的信息量过大。
处理完成后,您将获得:
结构化表格:对话区会显示一系列 Markdown 格式的表格,每篇论文占一行,包含以下信息:
| 字段 | 说明 |
|---|---|
| 英文题目 | 论文原始标题 |
| 中文题目翻译 | AI 翻译的中文标题 |
| 作者 | 作者列表 |
| arxiv 公开 | 是否在 arxiv 上找到此论文 |
| 引用数量 | Google Scholar 显示的被引次数 |
| 中文摘要翻译 | 摘要的中文翻译 |
历史文件:完整的分析结果会保存为文件,出现在下载区。这个文件包含所有处理过的论文信息,方便您后续查阅和引用。
分析完成后,系统会提示您可以利用这些信息让 AI 撰写 Related Works 章节。在对话框中输入类似以下的指令:
Write a "Related Works" section about "transformer attention mechanisms" for me.
由于上下文中已经包含了所有论文的摘要和元信息,AI 能够基于这些真实文献撰写一段相关工作综述,而不是凭空编造。
Google Scholar 每页通常显示 10 篇论文。如果搜索结果有多页,您需要分别对每页的 URL 执行分析。建议的工作流程是:
每次分析的历史都会被保存,您可以在事后合并整理。
???+ question "提示获取文献失败" 这通常是触发了 Google 的反爬虫机制。可能的原因和解决方法:
- **代理问题**:确认代理配置正确且能正常访问 Google
- **请求频率过高**:等待几分钟后重试
- **需要验证码**:在浏览器中访问 Google Scholar,完成人机验证后再使用此功能
- **IP 被临时封禁**:更换代理节点或等待一段时间
???+ question "有些论文显示不在 arxiv 中" 这是正常现象。并非所有学术论文都会上传到 arxiv——期刊论文、会议论文的最终版本往往只在出版商网站上。对于不在 arxiv 的论文,系统会使用 Google Scholar 页面上显示的摘要片段,可能不如 arxiv 版本完整。
???+ question "处理速度很慢" 为了避免触发反爬虫机制,系统在每次请求之间会插入 1-5 秒的随机延迟。这是有意为之的设计,请耐心等待。如果需要处理大量论文,建议分多次进行,中间间隔一段时间。
???+ question "arxiv 匹配不准确" 系统使用标题相似度来判断匹配,阈值设为 90%。有时候同一篇论文在 Google Scholar 和 arxiv 上的标题可能略有差异(如标点符号、大小写),导致匹配失败。这种情况下会使用 Google Scholar 的摘要片段。