基础操作

GPT Academic 的交互方式远不止简单的文字对话。除了基础的问答功能，您还可以上传文档让 AI 分析内容、发送图片进行视觉理解、甚至直接输入网址提取网页信息。本文将带您掌握这些核心操作技能，为后续使用各类插件功能打下基础。

对话交互

发起对话

GPT Academic 的对话交互与其他 AI 聊天工具类似，但提供了更丰富的功能。在界面右侧的输入框中输入您的问题或请求，然后点击提交按钮或按下 <kbd>Enter</kbd> 键即可发送。如果您需要输入多行文本，使用 <kbd>Shift</kbd>+<kbd>Enter</kbd> 组合键换行。

对话提交后，AI 的回复将以流式方式逐步显示在左侧的对话区域。您可以在 AI 回复的过程中随时点击 Stop 按钮终止生成。

切换模型

在界面左上角的工具栏中，您会看到一个模型下拉菜单。这个菜单显示了您在配置文件中设置的所有可用模型。不同模型有各自的特点——例如 GPT-4o 拥有更强的推理能力，而 GPT-3.5 响应更快、成本更低。您可以根据任务的复杂程度随时切换模型，切换后的新对话将使用新选择的模型。

使用基础功能按钮

输入框下方的 基础功能区 提供了一系列预设的快捷操作。这些按钮的工作方式是：将预设的提示词与您输入的文本组合后发送给 AI。例如，点击 学术润色 按钮，系统会将"请对以下文本进行学术润色..."等指令与您输入的内容拼接后提交。

常用的基础功能包括：

功能	作用
学术润色	改进学术文本的语法和表达
中英互译	将输入的中文翻译为英文，或反之
查找语法错误	检查并指出文本中的语法问题
解释代码	分析并解释代码的功能和逻辑

!!! tip "自定义按钮" 您可以在界面的"界面外观"设置中添加自己的自定义按钮，配置专属的提示词模板。

管理对话历史

对话历史会自动保存在当前会话中，AI 会参考之前的对话内容来理解上下文。如果您希望开始一个全新的话题，可以点击工具栏中的清除按钮清空历史记录。这在切换任务或发现 AI 因历史信息产生混淆时特别有用。

文件上传与读取

当您需要 AI 分析文档内容时，可以直接将文件上传到 GPT Academic。这个功能支持多种常见格式，是使用各类文档处理插件的前提。

上传文件

在界面右侧找到 上传文件 区域，您可以通过点击该区域选择文件，或者直接将文件拖拽到此处。系统支持上传以下类型的文件：

类型	支持的格式
文档类	PDF、Word (.doc/.docx)、TXT、Markdown (.md)、EPUB
演示文稿	PowerPoint (.ppt/.pptx/.pptm)
表格类	Excel (.xls/.xlsx)、CSV
代码类	Python、JavaScript、C/C++ 等各类源代码文件、Jupyter Notebook (.ipynb)、批处理文件 (.bat)
压缩包	ZIP、TAR 等格式（上传后会自动解压）
其他	JSON、YAML、邮箱存档 (.mbox) 等

上传完成后，系统会在对话区显示一条消息，列出已接收的文件清单和存储路径。这个路径信息非常重要——它会被自动填入输入框，供后续操作使用。

读取文件内容

上传文件后，您可以直接点击提交按钮来读取文件内容。系统会自动检测输入框中的上传路径，提取文件的文本内容并显示在对话区。

操作方式一：直接点击提交

上传文件完成后，输入框会自动填入文件路径（格式如 private_upload/用户名/时间戳/）。此时直接点击提交按钮，系统将：

读取该路径下所有文件的文本内容
将内容显示在对话区
自动向 AI 发送"请简单分析上述文件内容"的请求

操作方式二：路径后追加问题（推荐）

您可以在路径后面追加具体问题，让 AI 针对性地分析文件。例如：

private_upload/default_user/2024-01-15-10-30-00/ 请总结这份报告的核心观点

点击提交后，系统会先读取文件内容，然后将您的问题改写为"基于上述文件内容，请总结这份报告的核心观点"发送给 AI。

!!! tip "智能问答" 路径后追加问题是最高效的使用方式。您可以直接提问："这段代码有什么问题"、"帮我翻译成英文"、"提取关键信息"等，无需先读取再单独提问。

使用插件处理文件

除了直接提交读取内容外，您还可以配合函数插件进行更专业的处理操作。插件提供了针对特定场景优化的功能，例如 PDF 翻译、代码分析等。

例如，如果您上传了一份 PDF 论文并希望翻译它，操作流程是：

上传 PDF 文件，等待上传完成
在函数插件区选择学术分类
点击 批量翻译PDF文档 插件按钮

系统会读取上传路径中的所有 PDF 文件并开始处理。处理完成后，翻译结果会显示在对话区，生成的文件会出现在右侧的"文件下载区"。

!!! info "提交 vs 插件" - 点击提交：适合快速阅读、问答分析、简单处理 - 使用插件：适合专业任务如 PDF 翻译、代码审查、论文分析等，插件会执行更复杂的处理流程

文件路径参数

上传文件后，系统会自动将文件路径填入输入框。如果您之前清空了输入框，也可以手动填写路径。路径格式通常为：

private_upload/用户名/时间戳/

一些插件还支持直接输入本地文件夹路径（如 /home/user/project）来处理本地项目，这在分析代码仓库时非常实用。

图片上传与视觉理解

GPT Academic 支持多模态交互，您可以上传图片让 AI 进行视觉理解和分析。这需要使用具备视觉能力的模型。

前提条件

要使用图片理解功能，您需要选择支持多模态的模型，例如：

gpt-4o / gpt-4o-mini（OpenAI）
gpt-4-vision-preview（OpenAI）
glm-4v（智谱 AI）
qwen-vl-max（通义千问）

请在界面左上角的模型下拉菜单中切换到上述模型之一。

上传图片

图片上传的方式与文件上传相同——通过上传区域选择或拖拽图片文件。系统支持 JPG、PNG、GIF、WebP 等常见图片格式。

上传图片后，在输入框中输入您的问题，例如"这张图片里有什么"或"请描述这个图表的数据趋势"。然后点击提交按钮（注意：这里直接点提交即可，不需要使用插件）。AI 将分析图片内容并给出回答。

使用场景

图片理解功能在以下场景特别有用：

图表分析：上传论文中的图表，让 AI 解读数据趋势和关键发现
公式识别：上传手写或印刷的数学公式，获取 LaTeX 代码
代码截图：上传代码截图，让 AI 解释代码逻辑或指出问题
文档 OCR：上传扫描件或图片格式的文档，提取文字内容

!!! info "图片时效性" 上传的图片在系统中有时效限制。如果您在上传图片后进行了多轮其他对话，可能需要重新上传图片才能继续针对该图片提问。

网页内容提取

GPT Academic 可以自动提取网页的文本内容，这让您无需手动复制粘贴就能让 AI 分析网页信息。

提取网页内容

使用方法非常简单：在输入框中单独输入网页的完整 URL（以 http:// 或 https:// 开头），然后点击提交按钮。

!!! warning "重要：必须点击提交" 输入 URL 后，您需要点击一次提交按钮来触发网页内容提取。系统会自动检测输入内容是否为有效网址，如果是，则会访问该网页并提取正文内容。

例如，在输入框中输入：

https://arxiv.org/abs/2301.00234

然后点击提交按钮，系统将：

自动访问该网页
提取论文摘要等主要文本内容
将提取的内容显示在对话历史中

提取完成后，网页内容会被添加到对话上下文中。此时您可以继续输入问题并提交，AI 会基于提取的内容进行分析和回答。

!!! info "注意事项" - 输入框中应只包含 URL，不要在 URL 后追加其他文字，否则系统无法识别为网址 - 提取完成后，您可以在后续对话中继续提问，例如"请总结这篇论文的主要贡献"

技术原理

网页内容提取使用 Trafilatura 库实现。这个库能够智能识别网页中的正文部分，自动过滤掉导航栏、广告、页脚等无关内容，只保留核心文本。这比简单的全文提取效果更好，能让 AI 专注于真正重要的信息。

适用场景

网页提取功能适合以下场景：

论文摘要预览：快速获取 Arxiv 论文的摘要和基本信息
新闻文章分析：提取新闻正文进行总结或翻译
技术文档阅读：提取在线文档内容进行解释或翻译
研究资料收集：快速获取多个网页的核心内容

!!! warning "网站访问限制" 部分网站可能会阻止自动化访问，导致内容提取失败。对于需要登录才能查看的页面，此功能也无法正常工作。遇到提取失败的情况，建议手动复制网页内容。

操作流程总结

为了帮助您更好地理解各种操作的使用方式，下表总结了不同场景下的操作路径：

我想要...	操作方式
简单对话问答	输入问题 → 点击提交
润色/翻译文本	输入文本 → 点击基础功能区对应按钮
分析图片内容	切换到视觉模型 → 上传图片 → 输入问题 → 点击提交
读取并分析文件	上传文件 → 在路径后输入问题（可选）→ 点击提交
专业处理文件	上传文件 → 点击函数插件区对应插件
提取网页信息	单独输入完整 URL → 点击提交 → 继续提问

掌握这些基础操作后，您就可以开始探索 GPT Academic 丰富的插件功能了。下一步，您可以尝试使用论文翻译、代码分析等高级功能，它们都建立在这些基础操作之上。

基础操作

基础操作

对话交互

发起对话

切换模型

使用基础功能按钮

管理对话历史

文件上传与读取

上传文件

读取文件内容

使用插件处理文件

文件路径参数

图片上传与视觉理解

前提条件

上传图片

使用场景

网页内容提取

提取网页内容

技术原理

适用场景

操作流程总结

相关文档