docs/features/basic_operations.md
GPT Academic 的交互方式远不止简单的文字对话。除了基础的问答功能,您还可以上传文档让 AI 分析内容、发送图片进行视觉理解、甚至直接输入网址提取网页信息。本文将带您掌握这些核心操作技能,为后续使用各类插件功能打下基础。
GPT Academic 的对话交互与其他 AI 聊天工具类似,但提供了更丰富的功能。在界面右侧的输入框中输入您的问题或请求,然后点击 提交 按钮或按下 <kbd>Enter</kbd> 键即可发送。如果您需要输入多行文本,使用 <kbd>Shift</kbd>+<kbd>Enter</kbd> 组合键换行。
对话提交后,AI 的回复将以流式方式逐步显示在左侧的对话区域。您可以在 AI 回复的过程中随时点击 Stop 按钮终止生成。
在界面左上角的工具栏中,您会看到一个模型下拉菜单。这个菜单显示了您在配置文件中设置的所有可用模型。不同模型有各自的特点——例如 GPT-4o 拥有更强的推理能力,而 GPT-3.5 响应更快、成本更低。您可以根据任务的复杂程度随时切换模型,切换后的新对话将使用新选择的模型。
输入框下方的 基础功能区 提供了一系列预设的快捷操作。这些按钮的工作方式是:将预设的提示词与您输入的文本组合后发送给 AI。例如,点击 学术润色 按钮,系统会将"请对以下文本进行学术润色..."等指令与您输入的内容拼接后提交。
常用的基础功能包括:
| 功能 | 作用 |
|---|---|
| 学术润色 | 改进学术文本的语法和表达 |
| 中英互译 | 将输入的中文翻译为英文,或反之 |
| 查找语法错误 | 检查并指出文本中的语法问题 |
| 解释代码 | 分析并解释代码的功能和逻辑 |
!!! tip "自定义按钮" 您可以在界面的"界面外观"设置中添加自己的自定义按钮,配置专属的提示词模板。
对话历史会自动保存在当前会话中,AI 会参考之前的对话内容来理解上下文。如果您希望开始一个全新的话题,可以点击工具栏中的 清除 按钮清空历史记录。这在切换任务或发现 AI 因历史信息产生混淆时特别有用。
当您需要 AI 分析文档内容时,可以直接将文件上传到 GPT Academic。这个功能支持多种常见格式,是使用各类文档处理插件的前提。
在界面右侧找到 上传文件 区域,您可以通过点击该区域选择文件,或者直接将文件拖拽到此处。系统支持上传以下类型的文件:
| 类型 | 支持的格式 |
|---|---|
| 文档类 | PDF、Word (.doc/.docx)、TXT、Markdown (.md)、EPUB |
| 演示文稿 | PowerPoint (.ppt/.pptx/.pptm) |
| 表格类 | Excel (.xls/.xlsx)、CSV |
| 代码类 | Python、JavaScript、C/C++ 等各类源代码文件、Jupyter Notebook (.ipynb)、批处理文件 (.bat) |
| 压缩包 | ZIP、TAR 等格式(上传后会自动解压) |
| 其他 | JSON、YAML、邮箱存档 (.mbox) 等 |
上传完成后,系统会在对话区显示一条消息,列出已接收的文件清单和存储路径。这个路径信息非常重要——它会被自动填入输入框,供后续操作使用。
<!-- IMAGE: feat_basic_01_file_upload.png --> <!-- 描述: 文件上传完成后的界面状态 --> <!-- 标注: ① 上传区域位置 ② 对话区显示的文件接收确认消息(包含文件列表和路径)③ 输入框中自动填入的路径 --> <!-- 尺寸建议: 1000px -->上传文件后,您可以直接点击提交按钮来读取文件内容。系统会自动检测输入框中的上传路径,提取文件的文本内容并显示在对话区。
操作方式一:直接点击提交
上传文件完成后,输入框会自动填入文件路径(格式如 private_upload/用户名/时间戳/)。此时直接点击 提交 按钮,系统将:
操作方式二:路径后追加问题(推荐)
您可以在路径后面追加具体问题,让 AI 针对性地分析文件。例如:
private_upload/default_user/2024-01-15-10-30-00/ 请总结这份报告的核心观点
点击提交后,系统会先读取文件内容,然后将您的问题改写为"基于上述文件内容,请总结这份报告的核心观点"发送给 AI。
!!! tip "智能问答" 路径后追加问题是最高效的使用方式。您可以直接提问:"这段代码有什么问题"、"帮我翻译成英文"、"提取关键信息"等,无需先读取再单独提问。
除了直接提交读取内容外,您还可以配合函数插件进行更专业的处理操作。插件提供了针对特定场景优化的功能,例如 PDF 翻译、代码分析等。
例如,如果您上传了一份 PDF 论文并希望翻译它,操作流程是:
系统会读取上传路径中的所有 PDF 文件并开始处理。处理完成后,翻译结果会显示在对话区,生成的文件会出现在右侧的"文件下载区"。
!!! info "提交 vs 插件" - 点击提交:适合快速阅读、问答分析、简单处理 - 使用插件:适合专业任务如 PDF 翻译、代码审查、论文分析等,插件会执行更复杂的处理流程
上传文件后,系统会自动将文件路径填入输入框。如果您之前清空了输入框,也可以手动填写路径。路径格式通常为:
private_upload/用户名/时间戳/
一些插件还支持直接输入本地文件夹路径(如 /home/user/project)来处理本地项目,这在分析代码仓库时非常实用。
GPT Academic 支持多模态交互,您可以上传图片让 AI 进行视觉理解和分析。这需要使用具备视觉能力的模型。
要使用图片理解功能,您需要选择支持多模态的模型,例如:
gpt-4o / gpt-4o-mini(OpenAI)gpt-4-vision-preview(OpenAI)glm-4v(智谱 AI)qwen-vl-max(通义千问)请在界面左上角的模型下拉菜单中切换到上述模型之一。
图片上传的方式与文件上传相同——通过上传区域选择或拖拽图片文件。系统支持 JPG、PNG、GIF、WebP 等常见图片格式。
上传图片后,在输入框中输入您的问题,例如"这张图片里有什么"或"请描述这个图表的数据趋势"。然后点击提交按钮(注意:这里直接点提交即可,不需要使用插件)。AI 将分析图片内容并给出回答。
图片理解功能在以下场景特别有用:
!!! info "图片时效性" 上传的图片在系统中有时效限制。如果您在上传图片后进行了多轮其他对话,可能需要重新上传图片才能继续针对该图片提问。
GPT Academic 可以自动提取网页的文本内容,这让您无需手动复制粘贴就能让 AI 分析网页信息。
使用方法非常简单:在输入框中单独输入网页的完整 URL(以 http:// 或 https:// 开头),然后点击提交按钮。
!!! warning "重要:必须点击提交" 输入 URL 后,您需要点击一次提交按钮来触发网页内容提取。系统会自动检测输入内容是否为有效网址,如果是,则会访问该网页并提取正文内容。
例如,在输入框中输入:
https://arxiv.org/abs/2301.00234
然后点击 提交 按钮,系统将:
提取完成后,网页内容会被添加到对话上下文中。此时您可以继续输入问题并提交,AI 会基于提取的内容进行分析和回答。
!!! info "注意事项" - 输入框中应只包含 URL,不要在 URL 后追加其他文字,否则系统无法识别为网址 - 提取完成后,您可以在后续对话中继续提问,例如"请总结这篇论文的主要贡献"
网页内容提取使用 Trafilatura 库实现。这个库能够智能识别网页中的正文部分,自动过滤掉导航栏、广告、页脚等无关内容,只保留核心文本。这比简单的全文提取效果更好,能让 AI 专注于真正重要的信息。
网页提取功能适合以下场景:
!!! warning "网站访问限制" 部分网站可能会阻止自动化访问,导致内容提取失败。对于需要登录才能查看的页面,此功能也无法正常工作。遇到提取失败的情况,建议手动复制网页内容。
为了帮助您更好地理解各种操作的使用方式,下表总结了不同场景下的操作路径:
| 我想要... | 操作方式 |
|---|---|
| 简单对话问答 | 输入问题 → 点击 提交 |
| 润色/翻译文本 | 输入文本 → 点击 基础功能区 对应按钮 |
| 分析图片内容 | 切换到视觉模型 → 上传图片 → 输入问题 → 点击 提交 |
| 读取并分析文件 | 上传文件 → 在路径后输入问题(可选)→ 点击 提交 |
| 专业处理文件 | 上传文件 → 点击 函数插件区 对应插件 |
| 提取网页信息 | 单独输入完整 URL → 点击 提交 → 继续提问 |
掌握这些基础操作后,您就可以开始探索 GPT Academic 丰富的插件功能了。下一步,您可以尝试使用论文翻译、代码分析等高级功能,它们都建立在这些基础操作之上。