Back to Gpt Academic

联网搜索

docs/features/conversation/internet_search.md

latest6.7 KB
Original Source

联网搜索

大语言模型的知识存在时效性限制——它们只了解训练数据截止日期之前的信息。当您询问最新的技术动态、近期发布的论文、或者实时的数据统计时,模型可能会给出过时甚至错误的回答。GPT Academic 的联网搜索功能正是为解决这一问题而设计:它会先在互联网上检索相关信息,再结合搜索结果让 AI 给出更准确、更及时的回答。


功能原理

联网搜索的工作流程分为三个阶段。首先,系统将您的问题发送到搜索引擎获取相关网页列表。接着,系统会依次访问这些网页,提取其中的正文内容。最后,AI 会综合分析所有搜索结果,从中抽取与问题最相关的信息来回答您。

这种方式的优势在于:AI 不仅能获取最新信息,还能通过交叉验证多个来源来提高回答的可靠性。对于时效性强的问题,如"某某公司最新的财报数据"、"今天的热点新闻",联网搜索能显著提升回答质量。


基础使用

联网搜索作为一个函数插件提供,位于插件下拉菜单中。

发起搜索

在输入框中输入您想要查询的问题,无需刻意添加"搜索"、"查找"等关键词,直接用自然语言描述即可。例如:

Claude 3.5 Sonnet 的性能表现如何?

接下来,在界面上方的函数插件区找到对话分类,然后点击 查互联网后回答 按钮。系统会开始执行搜索流程,对话区会实时显示搜索进度和访问的网页列表。

<!-- IMAGE: feat_conv_01_internet_search.png --> <!-- 描述: 执行联网搜索时的界面状态,展示进度和搜索结果 --> <!-- 标注: ① 输入框中的问题 ② 函数插件区的"查互联网后回答"按钮位置 ③ 对话区显示的搜索进度和网页摘要 --> <!-- 尺寸建议: 1000px -->

搜索完成后,AI 会基于收集到的网页内容给出综合回答,通常会在回答中注明信息来源。

查看搜索详情

在 AI 给出最终回答之前,对话区会以可折叠的形式显示每个搜索结果的详情。点击展开可以查看原始网页内容的摘要、来源网站和原文链接。如果您对 AI 的总结不满意,可以直接点击链接查看原文。


高级选项

点击 查互联网后回答 按钮时,系统会弹出一个配置面板,让您对搜索行为进行更精细的控制。

搜索分类

搜索分类决定了使用哪类搜索引擎索引:

选项说明适用场景
网页使用通用网页搜索新闻、博客、技术文章、产品信息
学术论文使用学术搜索引擎论文、研究报告、学术资源

如果您的问题涉及学术研究,选择"学术论文"分类可以获得更专业的搜索结果。

搜索引擎

您可以指定使用的搜索引擎:

  • Mixed:混合使用多个搜索引擎,结果更全面
  • Google:谷歌搜索,覆盖面广(需要网络条件支持)
  • Bing:微软必应搜索
  • DuckDuckGo:隐私保护搜索引擎

不同搜索引擎的结果可能有所差异,如果某个引擎的结果不理想,可以尝试切换到其他引擎。

搜索优化

搜索优化功能可以提升搜索质量,但会消耗更多的 Token:

选项说明
关闭直接使用原始问题进行搜索
开启AI 会先优化搜索关键词,生成多个搜索查询
开启(增强)更深度的优化,会结合对话历史生成搜索策略,并访问更多网页

对于简单直接的问题,"关闭"即可满足需求。对于复杂或模糊的问题,开启优化可以获得更精准的搜索结果。

!!! tip "Token 消耗" 搜索优化功能会额外调用 AI 来分析和改写您的问题,这会产生额外的 Token 消耗。如果您对成本敏感,建议在简单问题上保持"关闭"状态。


配置搜索服务

联网搜索功能依赖 SearXNG 搜索聚合服务。GPT Academic 默认配置了公共的 SearXNG 实例,但在高峰期可能会遇到访问限制。如果您需要更稳定的搜索服务,可以自行部署 SearXNG 实例或配置其他地址。

配置 SearXNG 地址

config.pyconfig_private.py 中,找到 SEARXNG_URLS 配置项:

python
SEARXNG_URLS = [
    "https://your-searxng-instance.example.com/",
    # 可以配置多个地址实现负载均衡
]

系统会随机从列表中选择一个地址发起搜索请求。配置多个地址可以提高可用性。

配置 Jina API(可选)

Jina Reader API 可以提供更高质量的网页内容提取,特别是对于结构复杂的网页。如果您有 Jina API Key,可以在配置文件中添加:

python
JINA_API_KEY = "jina_your-api-key-here"

配置后,系统会优先使用 Jina 服务提取网页内容,提取失败时自动回退到默认方法。


使用技巧

明确时间范围:如果您需要特定时间段的信息,在问题中明确说明。例如"2024年发布的 Python 3.12 有哪些新特性"比"Python 最新版本有什么特性"能获得更精准的结果。

避免过于宽泛的问题:搜索引擎对具体问题的响应更好。"机器学习"这样的宽泛主题会返回太多无关结果,而"BERT 模型的预训练方法"则能获得更有针对性的信息。

结合对话上下文:开启"搜索优化(增强)"后,系统会参考之前的对话内容来优化搜索。如果您正在讨论某个特定话题,后续的搜索问题可以更简洁,系统会自动补充上下文。


常见问题

Q: 搜索结果提示"使用人数太多"

这是因为公共 SearXNG 实例达到了请求限制。您可以:

  1. 等待几分钟后重试
  2. 切换到不同的搜索引擎选项
  3. 自行部署 SearXNG 实例并配置到 SEARXNG_URLS

Q: 某些网页无法提取内容

部分网站会阻止自动化访问,或者需要登录才能查看内容。这类网页会显示"无法连接到该网页"的提示。AI 会基于其他成功获取的网页来回答问题。

Q: 搜索结果与问题不相关

尝试开启"搜索优化"功能,让 AI 帮助改写搜索关键词。您也可以在问题中加入更多具体的关键词或背景信息,帮助搜索引擎理解您的真实需求。


相关文档