docs/features/academic/pdf_translation.md
对于无法从 Arxiv 获取源码的论文,或者您手头已有 PDF 文件的场景,GPT Academic 提供了直接翻译 PDF 文档的功能。系统会智能解析 PDF 内容,将学术论文翻译成中文,并尽可能保留原有的结构和格式。
PDF 论文翻译功能支持多种解析方式,可以处理各类学术论文。与 Arxiv 翻译功能相比,PDF 翻译更加通用——无论论文来自哪个数据库,只要您有 PDF 文件就可以进行翻译。
系统提供三种不同的 PDF 解析方案,您可以根据论文特点和实际效果选择最合适的方式。
| 解析方式 | 特点 | 适用场景 | 配置要求 |
|---|---|---|---|
| DOC2X | 排版还原度最高,效果最好 | 复杂排版、多图表论文 | 需配置 DOC2X_API_KEY |
| GROBID | 学术论文专用,识别准确 | 标准学术论文格式 | 无需配置,使用公共服务 |
| 传统方式 | 基础文本提取 | 格式简单的文档 | 无需配置 |
系统默认会按照 DOC2X → GROBID → 传统方式的顺序尝试,自动选择可用且效果最好的方案。如果您希望指定特定的解析方式,可以在插件选项中进行选择。
使用 PDF 翻译功能的基本要求:
如果您希望获得更好的解析效果,可以配置以下可选服务:
DOC2X 是一个专业的文档解析服务,对学术论文的支持尤其出色。注册账户后,在 API 页面 获取密钥,然后在 config_private.py 中配置:
DOC2X_API_KEY = "您的 DOC2X API 密钥"
DOC2X 提供一定的免费额度,对于偶尔翻译论文的用户通常足够使用。
GROBID 是一个开源的学术文档解析服务,专门针对科研论文设计。GPT Academic 默认使用公共 GROBID 服务,无需您额外配置。
如果公共服务响应较慢或不稳定,您也可以自行部署 GROBID 服务,或在 Hugging Face 上复制公共空间创建私有实例,然后在配置文件中更新服务地址。
首先,将您要翻译的 PDF 论文上传到系统。在界面右侧的上传区域,点击选择文件或直接将 PDF 拖拽到该区域。上传完成后,系统会显示接收确认消息,并将文件路径自动填入输入框。
您可以一次上传多个 PDF 文件进行批量翻译——系统会依次处理每个文件。
在函数插件区选择 学术 分类,您会看到 批量翻译PDF文档 插件。点击该插件即可开始翻译。
如果您希望指定解析方式,可以点击插件右侧的设置图标(如果有),或在高级参数区输入指定参数。
<!-- IMAGE: feat_pdf_01_workflow.png --> <!-- 描述: PDF 论文翻译的操作界面 --> <!-- 标注: ① 上传区显示已上传的 PDF 文件 ② 函数插件区的"学术"分类 ③ "批量翻译PDF文档"插件按钮 ④ 对话区显示的翻译进度 --> <!-- 尺寸建议: 1000px -->点击翻译按钮后,系统将执行以下流程:
翻译进度会实时显示在对话区。对于一篇 10-20 页的论文,整个过程通常需要 3-10 分钟。
翻译完成后,结果文件会出现在界面右侧的"文件下载区"。根据不同的解析方式和设置,您可能获得:
点击文件名即可下载。如果对话区也显示了下载链接,同样可以直接点击下载。
DOC2X 使用先进的文档智能技术,能够精确识别论文中的文本、公式、图表和表格。它的优势在于:
使用 DOC2X 需要配置 API 密钥。如果未配置,系统会自动切换到其他解析方式。
GROBID 是学术界广泛使用的开源工具,特别擅长处理标准格式的学术论文。它能够:
GROBID 无需额外配置,系统默认连接公共服务。但公共服务可能存在访问限制或响应延迟,如果遇到问题可以考虑使用其他解析方式。
传统解析方式使用 Python 库直接提取 PDF 文本,是最基础的方案。它的处理速度最快,但对于复杂排版的论文效果不如前两种方式。适合:
???+ question "翻译结果中公式显示为乱码" PDF 中的数学公式识别是一个技术难题。建议尝试以下方法:
1. 使用 DOC2X 解析方式,它对公式的支持最好
2. 对于公式密集的论文,考虑使用 [Arxiv 论文翻译](arxiv_translation.md) 功能(如果能获取到源码)
3. 接受 Markdown 格式的输出,手动修复少量公式问题
???+ question "上传的 PDF 提示解析失败" 可能的原因:
1. **PDF 是扫描件**:图片格式的 PDF 需要先进行 OCR,本功能暂不支持
2. **文件加密或损坏**:尝试用 PDF 阅读器打开确认文件正常
3. **解析服务暂时不可用**:等待片刻后重试,或切换解析方式
???+ question "翻译结果丢失了图表" 不同解析方式对图表的处理能力不同:
- DOC2X 能较好地保留图表位置
- GROBID 会标注图表位置但可能无法完整保留
- 传统方式通常只提取文本
如果图表对您很重要,推荐配置并使用 DOC2X。
???+ question "如何选择最适合的解析方式?" 一般建议让系统自动选择(默认行为)。如果自动选择的效果不满意:
- **排版复杂、图表丰富** → 优先尝试 DOC2X
- **标准学术论文格式** → GROBID 通常效果不错
- **只需要文本内容** → 传统方式足够且速度最快